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<g) Rekonfigurierbares Rechenbauelement 



(g) Archftektur fur InformatlonsverarbeitunQSVonichtungen. 
die den Aufbau von kostengQnstigen Ho^iielstungssYSte- 
men fur spezianslerte Rechenanvwndungen einschlieBIIch 
Sensordatenverarbeitung zulaBt Die erfindungsgomaSe re- 
konfiguriCTbare Proressorarchftektur bedicnt sich eincr 
adaptiven Logilcprozessor (ALP) genanntcn programmierba- 
ron Loglkstrufctur. Diase Stmfctur ahnett einer erweitcrbaren 
frelprogrammierbaran Loglkanordnung (FPGA - field pro- 
grammable gate array) und 1st fur die Implontierung von 
programmspezifischen Pipefinefunktionen optimiert wobei 
die Funlctlon beUebige Male wahrend des Veriaufs eIner 
Berechnung geandert warden kann. EIne rekonfigurierbare 
P1pennebefeh!sstcuerungs-{RPIC - Reconflgurable Pipeline 
Instruction ControIjElnheit wird zum Bnladen der Pipellne- 
funktionen in den ALP wahrend des Konfigurationsvorgangs 

<und rum Koordinleren der Operatlonen des ALPs mit 
anderen InformatJonsvcrarbeitungsstrukturen wie belspiete- 
wclse Speicher, E/A-Vorrlchtungen und Arithmetifcverarbei- 
09 tungseinheften benutrt Es kcnnen mahrere Bauelemente 
CO mft der rekonfigurterbaren Archftektur nach der vorilegen- 
^ den Erfindung komblniert werden, um Hochleistungs-Paral- 
leh^erarbcitungssysteme zu erzeugen, die auf dem Konzept 
der SIMD-(Singte Instruction Multiple DatajArchhektur ba- 
sieren. 
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Ungidchformigkeit singer. Die Konstnikdon ist in eincm gleichSgwgen Konstrakdonsmedium vaem- 
fS^L die e^genW&sdien BeschrankDngen, die den KonstruktiiPorgang beemflu^en, die E/A-Sufte 
ri«L die Daten in den und aus dem Baustein bringen. Sobald jedoch feste Schalnjngen angrfuhrt anj ist nicht 
nor ein Tea der Funkdonafitat des Systems festgelegt. sondcm es gcht auch em Ted der arsprtnghchen 
FlexibiBtatderFPGAverlorea , «... • j ^ u t 

Der Veriust an neriblBtit beeinfluBt sowohi Implementienmg als anch Leisttmg. Beispielsweise smd Schal- 
tungsimplementierungen mit mehrercn Bausteinen weniger wifksam, da die zur Kommumkadon rwisdiwi 
Ba^einea benutzte chipexteme Verbindung nicht so dicht ist und einen medngeren Leistmpgrad aufweis^ als 
chiointem zur Verfiigung steht Schaltungsmodule, die aber mehrere FPGA aufff^at WCTden mussen, weisen 
Scherweise eine^gere Lcistung ant als wenn das Modul in eine emzige FPGA paBt P;^tionienmg emer 
Sdialtungsimplementiening Qber eine Menge fester und unfester Bauelemente ist ebenfaDs sehr sAwieng. 

Wenn beispielsweise bestinunt wird. daB fOr eine gegebene Anwendung ein f^^F^°'^^f'''ri^,^'?^ 
ist;mQssca alleSclialtungen,die mit dem Speidier kommunizieren, m FPGA mit Strften.diemitder Mokiplizier- 
sdiahungverbrnidensindtgelegtwerden. , v .«o. -^j^. 

En weiteres Verbindraigsprobleni, das die Leistnng typischer rekonfigunerbarer Systeme beeinfluflt, istdas 
der Art und Weise, auf die Signale dureh die Elemente einer FPGA-AnordnunggefOhrt werden. Signale werden 
typischerweise vor Verbindung mit einem E/A-Bus oder einem sonstigen Systembauclement nmi Ra^ emer 
Anordnung gefOhrt Daraus ergeben sich VerzSgcnmgen bei der Obertragung von Daten und der Ausrahnmg 
von Logitoperationen. Dnrch diese Art und Weise der DatenwegefQhrang ynrd audi die Fleribilitat der 
rekonfi^erbaren Elemente verringert da einige Zeflen als Drahte konfigunert werden mOssen. damit die 
Signale durch die ZellengefOhrt werden kSnnen. - . t i ^ _^ 

Geeenwirtige rekonfignrierbare Systeme weisen bedeutende Schwiengkeiten b« der Implementxenrng von 
Anwendungssoftware bei der Plarierung und WegefQhnmg der rekonfigurierbaren Funktionszenai und rdcon- 
fieurierbaren VerdrahtungszeUen, die zur Realisienmg der rekonfigurierbaren RecbenfunkQonsblScke notwen- 
d^ sind, aoL Aiitomatische Werkzeuge fur dieses Problem benutzen das retonfigimerbare Mittel allgemem auf 
^jrirksame Wefae. In vielen Fallen ist zur Realiaening einfacber rekonfigunerbarer Funktionsblocke eme 
umslSndlichePIaiierung und WegefOhnmg von Hand notwencUg. . ^ u j _j • u 

Die Taktgeschwindigkeitsleistung gegcnwirtiger rekonfigunerbarer Systeme ist dureh das Erfordernis meh- 
rerer rekonfigurierbarer DrahtbrOcken zur Obertragung von Daten aus der Penphene der rekonfigurierbaren 
Anordnung zu den inneren Schaltungen, die die Daten benStigen. und die entsprechenden rekonfi^^»aren 
DrahtbrOcken zum Herausbringen der Ergebnisdaten aus den mneren ZeHen zur Penphene der Anordnung 
begrenzt Die veranderlichen WegevenSgerangen des gegenw§rtigcn Systems erzeugen auch Taktschlupfpro- 
bleme bei der Implementienmg der Pipelinestufen-Taktsteuerungen. _ 

Gegenwartige Systeme erfordem, daB alle PipeBne-Datenwege unter Verwcndung emer bepenzten Menge 
an rekonfigurierbaren Verdrahtungsmitteln zur Periphferie der Anordnung gebtacht werden. DidurA wird «he 
Anziihl VOT Pipeline-Datenbussen begrenzt. die wirkungsvoU in emem System benutzt werden konnen. Es 
besteht in gegenwartigei Systemcn eine entsprechende Begrenzung bei der Anzahl von Pipelme-Steueragna- 
len. die zur Verjiraltung des rekonfigurierbaren Pipdinerechenprozessesverteilt w^ 

Erwunscht ist eine Arehitektur fOr ein rekonfigurierbarcs Rechnersystem. mit der die Naehteile bestehender 

^^K^wl^'I^ge^BtfiSimg rfchtet sidi auf eine Arehitektur fOr Informationsverarbeitungsvoirichtungen, 
die den Aufbau von kostengflnstigen leistungsfahigen Systemen fflr speziaKsierte Recheiwnwendungcn zur 
Sensordatenverarbeitung erlaubt Zu einer typischen Anwendung gehort die hochrattge Datenemgabe von 
dnem Oder mehrerenSemoren.Reduktion der Daten unterVerwendungvonairfwendigenSignahrerw^ 
algoridimen, die DarsteUung der Ergebnisse am Systemausgang und die nachfolgende Steuenmg von Betitt- 
gungsvorrichtungen(beispielsweisedenDi^tal-Analog-Wandlem). v . u.- j v 

^ Merkmal der rekonfigurierbaren Rechenarchitektur der voriiegenden Erfindung besteht m der Verwen- 
dung einer als adaptiver Logikprozessor (ALP) bezeichneten programinierbaren Logikstniktur. Diese Stniktur 
ist ^er envetteniigs^gen freiprogrammierbaren Logikanordnung (^A-field programiMble gate "TW 
ihnUch und ist for die Implementierung von anwendungsprogrammspezdisdien Pipelmefunktionen optumert, 
wobeidieFunktion^i^enddesVerlaufseinesRechenvorgangsbenebigeMalegeandertwerdenkann. 

Diese Pipelinefunktionen werden dureh Konfigurienmg dner Gnippe von m der Logikanordnung enthsUte- 
nen Logikzellen zur Ausfuhnmg emer spezifischen Operation bzw. Folge von Logikoperationen unplementiert 
Zum Beladen des ALP mit den fflr die Ausfuhning eines bestimmten Programras benStigten PipeDneftmktion 
wahrenddes Konfigurationsvorgangs win! dne rekonfigurierbarePipelineanwepmgssteuenings(RPIC-Recon- 
figurable Pipelmc Instniction ControOEinhdt benutzt Die RPIC bewirkt auch die K<K»nfiiueni^ do-Operaho- 
nen des ALPs mit anderen Informationsverarbdtungsstrukturen wie beispielsweise Speicher, E/A-Vomchtun- 
eenundArithmetikverarbdtangseinheiten. ... ... j t u- 

Es konnenmehrere Baudemente mit der rekonfigurierbaren Arehitektur der vorhepndMErfindmgkombi- 
niert werfen, om paraUele Hochleistungsvenirbdtungssysteme zu erzeugen, die auf dem Konzqit der SIMD- 
(Single Instniction Multiple Data)Architektnr basieren. In dnem solchen Fall wmi zur Bereitstellmg von 
Kommunikation zwischen den Bauelementen dne Schahbus (Toggle Bus) genannte Veriimdungsrtroktur be- 
nutzt Der Schaltbus wild audi zur Integrienmg von Peripherieverarf)eitungsdementen wie beispielsweise 
Baudementen zum Ablesen von SensonJaten. zur Kommunikation von Ergebnissen ond zur Steuerung von 
Bctatieunesdiedeni benutzt Zusatdich zu den ALP- und PIC-EIementen emhSlt em typisches rekonfigunerba- 
res Ba^OTent dne Sdialtbuskoppler^TBT-Toggle Bus Transcdvea^Schaltung. eine Pipeline-patenprozessor 
ff»DP) genannte standanlmaBige arithmetische Pipdineprogrammausfahrungsemheit. emen Speicher mit Mehr- 
fachi^riff (MPM-Multiple Port Memory) und eine exteme AdreBgenerator (XAG) genannte rarteme Speidier- 



zugriffseinheit 

Weitere Aufgaben und Vorteile oS* vorliegenden Erfindung werden aus der nac»lgenden ausfuhrltchea 
Beschreibung und den beiliegenden Zeichnungen ersichtlich werden. 
Eszeigen: 

Rg. I ein Diagramm der dem rekonfigurierbaren Signalverarbeituogssystem der vorUegendcn Erfindung zu 
Gnmde tiegenden Rechenverfahren, 

Fig. 2 ein Blockschaltbild eines allgemeinen rekonfigurierbaren Signalverarbeitungssystems (RSPS-Reconfi- 
gurable Signal Processing System^ 

Fig. 3 ein Biockschaltbild des Grundaufbaus eines typischen RSPS-Bauelements, 

Fig. 4 das Format der Gnindbcfehlsarten fur eine beispieihafte PDP- und ALP-Bef ehlsschnittstelle. 

Fig. 5 die Grundelemente eines ALPs bei einer Implementicning mit 32 horizontalen Zellea und 64 vertikalea 
Zellen, . , 

Fig. 6 die klassische Bef ehisausfOhningsf olge nach von Neumann, die durch den ALP tmplementiert wird. 

Fig. 7 die Steuerschnittstelle zwisdien den RPIC- und ALP-Modulen und cfie fur jeden Pipeline-Steueran- 
schlufi (PCP-pipeline control port) benddgten Signale, 

Fig. S ein Anwendungspip^inesegment, das eine Addter-ZAkkumufierfunkdon durchfuhrt, * 

Fig. 9 diedetailiierte SchnittstcUe fur eine ALP-Kemzelle, 

Hg. 10 eine beispieihafte Scfaaitung zur Implemenderung einer ALP-Kemzelle, 

Fig. 1 1 eine beispieihafte Schaltung fOr die Spaltentaktleitung aner ALP-ZeUe, 

Fig. 12 den allgemeinen Plan des Kemblockaufbaus fur eincn Kemblock mit vier horizontalen Spalten und 
vier senkrechtenZeilen, 

Fig. 13 die Verbindungen, die einen Teil der Schnittstelle zwisdien den Kemzellen und Zwisdienverstirker- 

schaltungen an der Ecke von vier Kembldcken bikleo. 
Fig. 14 eine beispieihafte Schaltung fOr eine verdkaie Zwischenverstarkerschaltung, 
Fig. 15 eine beispieihafte Schaltung fOr eine horizontale Zwischenverstarkerschaltun& 
Fig. 16 ein Blockschaltbild mit dem detailtierten Datenflufi fOr die Hauptbuswege ernes beispielhaften RSP- 

BauelementSr 

Fig, 17 ein Blockschaltbild mit einer beispielhaften Schaltung fOr den Schaltbuskoppler fOr ein RSP-Bauele- 
ment. 

Fig. 18 em Blockschaltbild der Grundbauelemente einer RPIC-Schaltung, 

Fig. 19 ein Zustandsdiagramm des Betriebsflusses zur Erzeugung eines Pipeline-Freigabcsignals fur das 
eingeleitete Programm und selbstandige Datenubertragungsoperationen» 

Fig. 20 dn Zustandsdiagramm des Betriebsflusses, wenn der Bef ehlsdecodierer bestimmt, dafi der gegenwarti- 
ge Befehi die Ausf Qhrung ^er Pipeiinefunktion im ALP erfordert. 

Fig. 21 ein Zustandsdiagramm des Betriebsflusses der Programmdatenanforderungscperadon, 

Rg. 22 ein Zustandsdiagramm des Betriebsflusses der selbstandigen Anf orderungsfolgeoperadon. 

Fig. 23 das IE£E-32-Bit-GIeitkomma-Datenformat» 

Fig. 24 ein Blockschaltbild einer ALP-Schaltung zur Durchf Qhnmg von beschleimigten Gleitkommaoperado- 
nen, 

Fig. 25 den DatenfluB und Berechnungen des grundlegenden FFT-Algorithmus fiir N « 8, 

Fig. 26 ein Blockschaltbild fOr eine in jedem Datenverarbeitungselement zur Implemenderung der bei der 
FFT-Berechnung benutzten Permutadonsoperation benddgte ALP-Schaltung* 

Fig. 27, wie der FFT-AIgorithmus durch Aufteilen der Datenprozessoren m Paare, die die Grundbcrechnung 
durchf uhren» vereinfacht wird, 

Rg. 28 ein Blockschaltbild einer ALP-Pipelineschahung, die die Adre ^e fu r die Koeffl^enten, die Adresse 
zum Lesen und Schreiben der Daten berechnet und die Daten fur die FFT-Beredmung uber den Schaltbus 
flbertragt. 

Fig. 29 eine hierarchische Darsteilung eines im Speicher gespeicherten Bildes, das bei einer typischen Bildver- 
arbeitungsanwendungbenutztwirdy 

Fig. 30 die AbUldung von BUdpunkten in einem Makroblock fur 16 RSP-Datenprozessoren (Numenerung 
unter Verwendimg von Hescadezimaldarstellung) fiir eine Bildverarbeitungsanwendung auf Grundlage der 
Architektur der vorliegenden Erfindung; 

Fig. 31 das Ordnen von Daten zwischen den Prozessoren, wodurch Zugang der Daten m mehrercn natzhchen 
Adressierbetriebsarten fOr eine Bildverarbeitungsanwendung ennoglicht wird, 

Hg. 32 das allgemeine Sucfaschema fur eine Bewegungsoffseterkennungsanwendung auf Grundlage der Ar- 
chitektur der vorliegenden Erfindung, 

Fig. 33 den DatenfluB und die Berechnungen des Algorithmus nach Walsh-Hadamard fur N « 8, 

Fig. 34 ein Blockschaltbild einer konfigurierbaren Logikschaltung, die die Berechnung der Hg. 33 implemen- 
dert, 

Rg. 35 einen Teil eines verschiebbaren Pipelinesegments zur Verwcndung bei der Ausfuhrung der Berech- 
nung der Fig. 33. 

Obwohl die rekonfigurierbare Rechnerarchitektur der vorliegenden Erfindung in verschiedenen Formen, die 
fur spezifische Verwendungszwecke ausgelegt sind, implemendert werden kann, konzentriert sich die folgende 
Besprechung auf die Verwendung der Architektur fur eine Signalverarbeitungsanwwidung, Besondere Ausfuh- 
nmgsformen der Erfindung erlauben die Verinderung einer Anzahl von Parametem zur Realisierung von 
Bauelementen* die die Erfordemisse spezifischer Marktsegmente erfollen: 



1) Die Einzelheiten der Implemendenmg der Kemzellenanordnung und rekonfigurierbaren Verdrahtungs- 



I 



1 



zeUea auf medriW Ebene lassen sich verindern. um entvredg^S Nachschlagetabdlen basierenden 
rekonfigurierbardRrchitekturea oder f«aiik5nugen rekonfiguridWen Architekturen Rechnung zu tra- 

2) Die Anzahl von KenizeDen und rekonfigurierbaren Verdrahtungszeflen ]aBt sidi verandem, um einen 
KompromiB zwischen Bauelementkosten und AnwendungsschahungsgroBe bei gleichzeitig verbesserter 
HersteDungstechoikzubieten; . . „ <- n i 

3) Die SchnittsteUe zum Speicher, zum Kernprozessor und zur Sduuttstencnerwerterung fur paraflele 
Verarbeitung kaim mit Festfunktionssdialtungen im sdben Bauekment mit dem rekoofigunerbaren Logflc- 
mittel Oder mit extemeaBatteIemeQten,diediese Fcstfuiiktionsfahigkeitenenthalten.verbundeasem; 

4) Die Bitzahi in den Busworten der Pipelinebusanordnung laBt sich zar ErfOHung der Erfordenu»e der 
SchnittsteUe zum Festfunktionsraittel und der Wortlangenerfordemisse bestimmter Anwendungskatego- 
rien verandero. Beispielsweise braochen Bildveraibeitungsanwendungen typischerweise tauzere Worte als 
Digitalsignalverarbeitungsanwendungen;ond ... 

5) Die Anzahl von Kpefinebusanordnungsdatenbussen iSBt sich vcmngera oder erweitOTi, um emer vemn- 
gertffl bzw. erweiterten Anzahl von FestfimktioasblQcken Rechmmg zu tragen. 

■ Derrekonfigurierbarc Signalprozessor (RSP) der vorfiegenden ErfindungbenAtauf OTerRectenarchiteb^ 
for Datenvembeitang, die konfigurierbare Logik- und ParaBelverarbeitungs-Verbmdungsstmkturen ak Ted 
des Grund-Rechenmechanismus integriert. Mit diesem Ansatz konnen Algonthmen derart mplementiert wer- 
den. daB sich eine Leistungsverbessening in einer ganzen GroBenotdnung fOr eme groBe R^e von Anwendun- 
gen ergibt. Zur gleichen Zeit cnnogUcht die Architektur die Verwendung leistangssttfk SoftwarekompibCTton- 
zepte Mr Vensinfachung der Programmentwicklungsaufgaben. die zum ErschBeBen ihrer hohen Leistungsfihig- 

""^D^ SoSJ dSSiiUerer fOr die Architektur bildrt wie in Fig. 1 dargestellt die Datenverarbeitimgsauf^n 
einer Anwendung auf drei Gnmdrechenverfahren. Diese Rechenverfahren umfassen ^^^^^^^^^^ 
nung. skalare Berechnung und paraflele Verarbeitung. Die dem RSP zu Grunde Uegendc Ardutelrtur mtCTStatzt 
dietotegrierung dieser Verfahren auf eng verkoppeltcr Gnmdlage. Durch Zusammenwu-kung der Hsmlware- 
strufcturen k5nncn Hunderte von Rechenschritten. an denen die skalaren Pipetoeproressoi^die torf^ 
bareIx>gikunddieParanelverarb«tungsmittdbeteiIigtsind,ineinememzigenTakc^^ 

Durdi den RSP wird die Verwendung des konligurierbaien Logikmitteb als GnuKftestandteil der Bere^- 
nnngbetontDurohdenKompiKererwirddiehechsteUistungdurchErzeugunganwendim tiefer 
PiDdine--Schaltungen realisiert die aus der konfigurierbaren Ixjgik gebfldet werdea Bei di«^^ 
freiprogranunierbare Logikanordnungen (FPBA) benutzt und die Durchfahrung vieler elementarer Rechen- 
schritteindnemeinzigenTaktjyklusermSglicht .,„,,.. , t . ^^.u-u^^k* 

Da die konfigurierbare Logikanordnung die Implementterung von willkarbchen Lijgiknetzen eriaubt, bestebt 
keine Bcschrinkung derdem KompiEerer fOr jede Pipelinestufe verfflgbaren Art vonRechenpTindetemwit 

Die RSP-Arehitektur enthSUt auch das neuartige Konzept einer PipeIme.Busanordnung(PBA.pipehn«lbtts 
array) als Teil der konfigurierbarcn Logikanordnung zur Vereinfachung des Vorgangs auton^itischCT Sdial- 
tunraersteUung. Dadurch, daB die PBA die direkte Implementierung von Pipebnestruktarcn eriaubt taetet oe 
au(l im Verglerch zu friiheren Ansitzen zur Auslegung von rekonf5gunerbaren>yt±itetouren «ne vielhoberc 
LeistungsfiWgkdt Die Anzahl von in einer eimdgen RSP-Vorrfchtung implementierten Pip^esti^n ot durch 
die GroBe der konfigurierbaren Logikanordnung begrenzt In der zu beschreibenden AusfOhrungsform ist die 
PBAdneErwelterungderfeinkSrnigenkonfigurierbarenLo^kanonlnungsstrukto^ , . 

Durch Verwendung der mtegrierten ParalleWerarbeitungs-Veibindungsstniktor der yorbegenden &findung 
lassen sich mehrere RSP-Vorrichtungen in der -Paranelverarbeitungsdimensionr kombimeren. Durch Verwen- 
dung mehrerer RSP-Bauelemente k5nnen unter Verwendung des Tipellneverkettunr genannten Konzq)ts 
tiefe Pipelinen erwdtert werden. Dies ermSgUcht die AusfOhrung von mehreren Hundert Algontlunusschntten 
in einemeinzigenTaktEyklus. Auch erlaubt die Paraflehrerarbdtungs-Verbindungsstrufctur die ImplemenUCTung 
von herkSmnJichen SIM]>(SmgIe Instruction Multiple Data) und MIMD (Multiple tasttucUon Mdtiple Data) 
PaiallelverarbeitungsalgorithmeadurchdenSoftwarekompiKerer.Diemdermbes^^ 
tar implementierte spedfische ParaUehrerarbdtungs-Verbindungsstruktur wird als -^dhalAus- bezeictaiet Mit 
dieser Struktur kann an Mehrstufen-Verbindungsnetz implementiert werden. Durch Embau emes volten Bus- 
kopplers in eine RSP-Vorrichtung ermSglicht die Schaltbusstniktur Zugriff auf die meisten DatenfluBfitagkei- 
ten eines Kreuzschienennetzes zu einem Preis, der mit dem Ensatz eines herkSmmhchen Busses mit drei 
Zustanden vergleichbar ist FOr die interessierenden Anwendungen wird mit dem Schaltbus echte skalierbare 
Berechnung reaBsiert: N-malBandbrdtenstdgerungfiir (N) Verarbdtungselemente. 

Anwendungsentwiddung 

Die RSP-Architektur erlaubt die Implementierung von Softwareentwiddungswerkzeugen, die die konfip- 
rierbare Logikanordnung auf mehrere unterschiedliche Weisen benutzca ZusitzUdi zu dem Ansatz der tiefen 
Pipeline kann das konSgurierbare Logikmittel als Mechanismus zur Stdgerung des BefeUssattes benutzt 
werden. Beispidsweise kann bd dner Anwendung. die die Handhabung einer groBen Anzahl tou Galos-Feld- 
Arithmetikgleichangen erfordert. die konfigurierbare Logik zur Implementierung OTesGalois-Feld-Arithmetifc- 
Befehlssatzes programmiert werden. Em Programmien* kann durch Verwendung der 'XJperandenuber 
Fahiekdt der Programmiersprache C+ + auf diese Fahi^eit zugreifen. Fur digitabignalverarbeitangsonenner- 
te Anwendungen kann die konfigurierbare Logik zur Implementienmg der """Pl^^'o AdreBber«amut«« 
benutzt werden, <fie zum Zugrdfen auf die Anwendungsdatenbank benOtigt werden. Der RSP behait die 
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rekonfigurierbarea Eingabe-ZAus^^^higkeiten herkommlicher koafigtinerbareill^gikvorrichtuDgen. Da- 
duich kann eine Gnippe von RSP-Vonichtungen direkt mit BetadgungsZ-Seasorvorrichtungeii verbunden 
werden, die DatenQbertragimg mit sehr hoher Bandbreite erfordenit wie beispielsweise Bildwandler und hochra- 
tige Kommunikationsvorrichtungen. 

Die auf eine bestiimnte Anwendung angewandte Mischung von Rechenansatzen ist von einer detailliertea 
Analyse der Aufgabenstruktur der Anwendung und der Beschaffenheit der kridschen Rechenfolgeo in den 
Innerea Schleifen" des Algorithmus abhangig. Die AbbUdung der Anwendung auf die Mehrzahl mdgUcher 
verfQgbarer Implementierungen unter Verwendung eines RSP-basierenden Systems ist die Aufgabe mit der 
groBtea Komplexitat im automatischen Kompilierungsvorgang. Numnehr wird die allgemeine Methode zur 
AusfQhrung dieser Aufgabe beschrieben. 

Als erstes versucbt der Kompilierer immer, 100% des konfigurierbaren Logikmittels zu benutzen. Der RSP 
enthalt hochratige Rekonfigurierungsfahigkeiten, die es dem Anwendungsprogramm ermdgUchen, die Berech- 
nungen in der konfigurierbaren Logik mit dem Fortschreiten der Anwendung durch die Abfolge der erforderli- 
chen Aufgaben zu verandem. Beispielsweise kann die konfigurierbare Logik zuerst zur Durchfuhrung von 
hochratiger Datensammlung benutzt werden. Danach wird die konfigurierbare Logik mehrere Male verandert, 
um die Daten za analysieren, und abschlieBend zur Ausgabe der Ergebnisse der Datenhandhabongen rekonfigu- 
riert 

Der Kompilierer versucht stets, fOr jede Aufgabe einer Berechnung die defste Pipelineanordnung der konfigu- 
rierbaren Logik zu reaiisieren. 

Pipelineverkettung zwiscben zwei oder mehr RSP-Vorrichtungen uber den Schaltbus wird benutzt, wenn 
Funktionspipelineanordnungen angetroffen werden, die groBer sind, als was in das konfigurierbare Logikmittel 
einer eiczigen RSP*Vorrichtung paBt In Ermangelung der Erkennung einer tiefen Pipelineanordnimg fiir eine 
spezifische Phase einer Anwendung benutzt der Kompilierer die konfigurierbare Logjk als Mechanismus zur 
Beschletmigung des Befehissatzes /der Adressenerzeugung. Diese 'dynamischen* Benutzungen der konfigurier- 
baren Logik finden zusatzlich zur *stadschen' Benutzung der konfigurierbaren Logik fOr anwendungsspezifische 
Eongabe/Ausgabe statt Der Kompilierer verwaltet die Verwendung des konfigurierbaren Logikmittels auf 
ahnliche Wdse wie die klassischen Verfahren der *globalen Registeropdmierung*. Im Gegensatz zu frilheren 
Ansatzen zu einer rekonfigurierbaren Logil^ die nur eine Funktion zu einer Zeit akdv sein lassen, eriauben die 
mehrerea PipelinesteueranschlOsse (PCP-Pipeline Control Ports) der RSP-Architektur, daB mehrere PipeUne- 
segmente aktiv bieiben, wahrend irgendeines der Segmente dynamisch rekonfiguriert wird. 

Als zweites erreicht der Kompilierer eine verbesserte Leistung durch Verwendung der durch den Schaltbus 
bereitgestellten ParaUelverarbeitungs^higkeiten. In einer Gruppe von RSP-Vorrichtungen kdnnen gleichzeitig 
mehrere verschiedene Aufgaben (wie beispielsweise Dateneingabe, Datenanalyse und Datenausgabe) durch 
funktionsmaBige Verteiiung dieser Operationen unter den Prozessoren und Verwendung des Schaltbusses fOr 
den Auf gabe-Aufgabe*DatennuB durdigefOhrt werden. Dieser Rechenstil wird als MIMI>-(Multiple Instruction 
Multiple Data)Verarbeitung bezeichnet. Eine Gruppe von RSP-Prozessoren kann auch unter Verwendung des 
SIMDH[Single Instruction Multiple Data) Parallelverarbeitungsverfahrens zur Beschleunigung eines bestimmten 
Algorithmus benutzt werden* der enge DatenfiuBverkopplung erfordert. Beispielsweise kdnnen (N) RSP-Pro- 
zessoren zusammen zur Beschleunigung der Berechnung des schnellen Fourier-Transformations-(FFT-Fast 
Fourier Tranfonn) Algorithmus um einen Faktor von N benutzt werden. 

Der Kompilierer implementiert den Rest der Anwendung imter Verwendung von Codef otgen fOr den skalaren 
Prozessor. Die Programmteile enthahen den Code fiir die Rekonfiguration des konfigurierbaren Logikmittels. 
Der Bef ehlsstrom des skalaren Prozessors ist auch fOr die hdhere Aufgabenfolgensteuerung unter Verwendung 
der Schaltbustransaktionea und zugehorigen Pipelinesteuermec^anismen verantwortUch. Auf den unteren Ebe- 
nen der Berechnung wird die Koordination der Operationen zwischen den Funktionseinheiten durch die 'selb- 
stslndigen Pipeline-I^ahigkeiten der konfigurierbaren Logikanordnung vervaltet, die spiter beschrieben wer- 
den. AbschlieBend fOhrt der skalare Prozessor alle Gbrigen Verarbeitungsaufgaben durch, die nicht der konfigu- 
rierbarea Logik oder den Parallelverarbeitungsmodulen zugewiesen worden sind. 

Ein Aspekt des Verhaltens von RSP-basierenden Systemen besteht darin, dafi dasselbe Unterprogramm auf 
drei verschiedene Wdsen ausgefuhrt werden kann: (1) voUstandig in der konfigurierbaren Logik, wenn dieses 
Mittel an der spezifisdien Stelle in der Berechnung mcht anderwdtig verwendet wird, (2) teilwdse in der 
konfigurierbaren Logik, wenn nur ein Teil des konfigurierbaren Logikmittels zur Verfugung steht; oder (3) 
voUstandig im skalaren Prozessor, wenn das gesamte konfigurierbare Logikmittel zur Durchfuhrung von Be- 
rechnungen eingesetzt wirci die eine bessere Leistung ergeben. 

In der Praxis schreitet die Entwicklung einer Anwendung schrittwetse voran. In vielen Situationen besteht 
wahrsdidnlidi eine voUstandige Implementienmg fOr die Anwendung fOr eine skalare Architektur. In den 
meisten Fallen kann dieser Code, um eine bessere Leistung zu erzieien, fOr den RSP rekompiliert werden, wird 
aber wahrscheinlich nicht die "Tjeste" Leistung bewirken, da die Algorithmusdefinition typischerweise dne 
Neigung zu dem Skalarsystem des ursprunglichen Ziels enthalt Dies ist eine gut bekannte E^cheinung bei der 
parallelen Verarbdtung und wird nur durch sachkun<£ge Anderungen des Programms gelost, mit denen der 
Kompilierer bessere Arbeit bei der Codeerzeugung leisten kann. Dieser Weg der "progressiven Verfeinerung^ 
ist eine der Hauptstarken der RSP-Architektur ira Vergleich zu frilheren Methoden. Das heiBt, ein unerf ahrener 
Benutzer wird ohne bedeutenden Aufwand eine nQtzliche Losung fur ein Anwendungsprogramm erhaiten. Mit 
zunehmenden Kenntnissen des Benutzers kdnnen progressiv bessere Losungen er^elt werden. Ausgeklugelte 
Softwarewerkzeuge wie beispielsweise ^Anwendungsprofilierei^ und auf Graphik basierende "DatenfluBmana- 
ger^ werden typischerweise zur Realisierung eines En&dsungsansatzes unter Verwendimg der bei der Architek- 
tur der vorliegenden Erfindung verfdgbaren Rechenverf ahren eingesetzt 

Stnikturell besteht die Ausgabe eines RSP-Kompiliererwerkzeugs aus einer Objektdatei» die sowohl die 
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hinare Codedefinition^ftie skaiaren Prozcssoren und eine Menge ve^ebbarer SchaHun^konstniktionen 
^«Sbaren iTgikbiacken auf Gnmdlage der Schaltnngskonstruktionen anter Ver- 
wcndangdes PijwUne-Busanordnungskonzepts erlaubt 

ObersichtQberdie RSPS-Systemarclutektur 

Wie schon besprochen. basiert das rekonfigurierfaare Signalverarbeitmigssystem (RSPS-Reconfigurable Si- 
gnal PrSng^SS der wriiegcndenErfi^^ 

Sii^S^Sridie ^ Aufbaa voa Hochleistungssystemen fur 5P«^^i'*^^^«^«|^^*!'S^ 
f^e^SdatenverarbdUgbeaumweidenkSimei^ typische Anwendung wuide erne hodiratige Daten- 
SJ^^n eS^^^ehreren Sensorea (wie beispielsweise eme VWeokamera^eiaem Rad^R^^ 
SV-Sal-Wandler asw.X Reduktion der Daten uater Verwendting komplocer Algonthm«i '^e b«y 
iSe d« pSrier-Transfonaation. Darstelhmg der Eigebnlsse ^/^r^^^^^^^."^^!, 
etoer Betat5gungsvorrichtung(wie beispielsweise einemDigital-Anaiog-Wandler tmr.) amfassen. Em 
Merted JSSSs-Automfin ist die Verwendung einer fortschritUichen Artvon programm^^ 
^S^SSSSe^Sptiver Logikprozessor (ALP - Adaptive 
SiSSX; hnplemeJdenmg von P™grammspezifischea Pipelinefunl^onen pp^^^ 
ri«nhSLbigB Male ^^hrend de$ Veriauf s der Berechnimg geindert werden kann. Die neoardge rekonfiguner- 

- ReconfigurabtePipeHne lnstructioaControOEi»h«tder|^rfieg«^^^ 

iSmdStoSlidad^er Fmiktionen in d« 

^mTd £ KoordS^ der Operadoaen des ALPs mit anderea Wormationsverarbeitungsstrukturen ver- 

fiSS^imen ijeichereleoente, E/A-Vorrichtungen und Antl«netikj^arbeiJ^^^^ 
«S?MLwie schon bemerkt; koimen mehrere RSPS-Arefaitekturbauelemente kombimertwerdcn, ™i P^^" 
^Sril^ernVSoher Ldstung zu erzeugen. die auf dem Konzept der SIMlHSmgle Instruction 

'^SSj'R^ltr^o^^SS'eine, aflgemeinen RSPS (Reconfigurable Signal Pn,.^g S^em) lOa In 
I ^ jS^^pSSiitekturbaudement ein rekonfigurierbarer Sgnalprozessor (RSP) «« geia^t N 
StlaSemMte. dtewn 0 bis N-1 numeriert sind, wenlen als die Datenverarbertungselemente des Sj^ems 
be«!3Sr^^ 5n ^Suches (N) aumeriertes RSP-Bauelement 104 wird als B'»^P!?««^' ^^^^^^ 
S^SEtei^Mt^SrfSsdae Steuenmg fOr die IDatcnelementanoninung benutxt. Die Tatsache. daB dasselbe 
£MauSSt^<Se^Seden!nRoUenbenutzt werden kan^ 

^?sSbS^rkt.wird«rBereitsteUungvonKonimunacatioazwischend^^^ 

*5chStbisl06 b«SSverbindungsstt^ benutrt Der Schaltbus 106 hat «fie Bgenschaft, daB die Netto- 
«3h^db«hf dSfiSesSi VerhSto^ 

JSd^^ ^ hSSriS^on Sripheri^^ wie beispielsweise Baudementenjiam 

JSreseJvo?^«S«SS^der KonmiSnikation von Ergebnissen und der Steuerung von ^^^g^.^™ 
hfn^ Weiterelnfom^nen hinsichtlich der Struktur und Funktionsweise des Schaltbusses 106 smd am der 
iS^S^mbS S™SSShten allgemein zugewiesenen US-Patentanmeldung Seriennummer 08/567 172 
St JiBSdSt^-&S^cha^^^ ersichtlfch. dercn Inhalt hier durch Bezugnahme aufgenommen wmL 
Se SsP-viSSigTw^d 104 entfdlt Speichermittel. die wie in der Rgur gezeigt P'*", Ve^^^S 
iS^S«riSKSeIementel08erweitertweidenk5nnen.Wenngewans^^ 
5ro^?enStt>usl06angeschaltetwerden.ambeiDateneingabe/-Aasgabe 

StrukturzurlmplementieningvoaRSP-Elementen 

Der RSPfunddas RSPS-System) kSnnen als spezialisierte GroBrechnerarchitektiar betradUet weiden^t der 
BcTo^ aKr^nSmgeiiTe bedeutende Mengenvon Handhabungenauf Bitebene und ganzxahlige Anth- 
^^^^J^^^^^^ die in diese K^egorie faUen. gehort BUdverarbeitung mid neue AnAmetik 
SeteSjSSSSsrEXSeldaSLietik-Anwendungen.K 

behung und Verarbeitung von hocbratiger Kommunftation^ Die zu bef^ibwde R^eAraar^ st^ 
Bertn^eung der Verwendung des konfigurierbaren Logikimttcls ausgelegt Als soldiw ist <fie stadare Verar- 
JeSSk«"rf^^a»^ger DigitSnalyerarbdtungs- (DSP-Wgital Sg^J^^^^.^^^^^,^ 
J^endnni!sartenQbereinstiniint,die beschrieben wcrdem Alternative AusfOhningpfomender Ardutektur 
Jrnn'^^J^t^oSSSkonur^aund^^^ 

Die Flff 3 ist dn Blockschaltbild des Grundaufbaus ernes typischen I^PS-Baudemrate (RSP-Elemente loz 
odS l5d« EgTSi zSLudi zu den beteits erwahnten Sdialtungen des KLS 120 und RPIC 122 cnthah eme 
?^kche Si?/orS*t«ng eine Sdialtbuskoppler-CIBT-Tog^e Bus 'g'^f^^^?!^/ "^T^^. 
n^Datenororessor (PDP-Pipeline Data Processor) 126 bezeichnete Pipelmeemheit zur AusfQhrung von Stan- 
;*a;S5S^e? ipeSer mit Mehrf adunigrif (MPM-Multiple Port M«;^ory> IM u^ «ne a^ extemer 
Adr^ecnerator (XAG-Extemal Address Generator) 130 bezeichnete exteme Speicheraugnffsemheit 

Die lSS,toi^£ien zur Implemenderung dner RSP-Ardiitektnr **'\^P|^''>T^'£Snete 
fpS! In dS Rgur als Busleitungen RA, WA, RD, WD. RX und WX g«eigtX die /dco^gunerbare 
ffhk^t^emnB rRPJ^^^ PipeBne Instruction ControUer) 122 und die Pipelmestcueransddusse 

SS-S^C^Sl pS?^^ toXemeinen FaD enthalt jedes RSP.B«idem«t auch das hochra^ 
?p?chSSdS; Mehrfadiugriff (N4PM-Multiple Port Memory) ^'^^^^^''^^^^F^^^ 
gS^eismigen, Datenlesen und Datensdiieiben in dnem emzigen Taktzyklus erlaubt Die dem RSP zur 
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Verf ugung steheade Speicherkapazitit kann unter Verwendung von extemen Bauelementen erweitert werden, 
auf die unter Verwendung des extemen AdreBgenerators (XAG) 130 und den in der Figur gezeigten extemen 
Verbindungen "A" und *B* zugegriffen wird. Fur die Zwecke der gegenwartigen Besprechung dient der adaptive 
Logikprozessor (ALP) 120 als das konfigurierbare Logikinittel,der PipeUne-Datenprozessor(PDP) 126 fungiert 
als der DSP-Kemprozessor und der Schaltbuskoppler (TBT-Toggle Bus Transceiver) 124 dient als die eingebet- 
tete Schaltbusverbindungsschaltung. In einer allgemeineren Architektur konnen die Blocke PDP und TBT durch 
andere Artcn von skaiaren Verarbeitungseinhetten und andere Verbindungsarchitekturstrakturen ersetzt wer- 
den. Bei einigen AusfQhrungsformen kdnnen die Blocke TBT, PDP, MPM und XAG cntfemt werden, was nur 
das konfigurierbare Logikmittei und die PipeUnesteuerf ahigkeit als Gmndmodule der Architektur belaBt 

Wie bemerkl, ist ein einmaliges Merkmal von RSPS-Baueiementen die Verwendung einer Pipelinebusanord- 
nungs-(PBA-)Struktur 132, die erlaubt, dafi beliebige der Funktionseinheiten mit den im ALP 120 konfigurierten 
Pipelinefunktionen verbunden werden kdnnen. Daraus ergibt sich ein schnelleres und wirkungsvoQeres Mittel 
zur Dateniibertragung zwischen dem ALP und den anderen Bauelementen. Gleichzeitig kdnnen mehrere 
funktionsmaBig unterschiedliche Hpelinesegmente im ALP beautzt werden, was eine selbstancfige Pipelincak- 
tion zulaBt; die durch Programmausfuhrung im RPIC 122 synchronisiert wird. 

Nunmehr werden die ailgemeinen Konzepte fur die Elemente ALP 120 und RPIC 122 in RSPS-Bauelementen 
und die Integration des Schaltbusses 106 besprochea Wie schon erwahnt, wird angenommen, daB der PDP 126 
eine typische hochratige Pipeline-Arithmetikeinheit wie beispielsweise der von National Semiconductor Corpo- 
ration, dem Inhaber der vorliegenden Er&idung, hergestellte Digitalsignalverarbeitungs(DSP-Digital Signal 
processing)Kem ist Es ist zu bemerken, daB die RSPS-Architektur die Verwendung einer Viekahl von PDP- 
Funktionseinheiten zuIaBt und HSP-Bauelemente berucksichtigt, die keine PDP-Hnheit aufweisen. Bei den 
Einheiten MPM 128 und XAG 130 kommen Gnmdsatze typischer hochratiger Speicber mit verschachteltem 
Cache zur Anwendung und sie werden hier nicbt ausfuhrlich beschrieben. 

In einer Ausfiihrungsform ist ALP 120 eine Erweiterung der FPGA-Architektur des CLAy von National 
Semiconductor und bewahrt die feinkdmige symmetrische Zellenstniktur dieser Vorrichtung. Die CLAy- Archi- 
tektur einer konfigurierbaren Logikanordnong ist in dem am 29. MSrz 1994 erteilten und dem Inhaber der 
vorliegenden Erfindung zugewiesenea US-Patent Nr. 5 298 805 mit der Bezeichnung "Versatile and Efficient 
Cell-to-Local Bus Interface in a Configurable Logic Array" (Vielseitige und wirkungsvolle Zellen-Lokalbus- 
Schnittstelle in einer konfigurierbaren Logikanordnung) beschrieben und dessen Inhalt wird hiermit durch 
Bezugnahme aufgenommen. Die Hauptveranderungen an der CLAy-Architektur betreffen Optimierungen fur 
eine wirkungsvoUe Implementierung von mehrstufigen Pipelinestruktureii, Steuerung von mehrfachen Hpeline- 
ketten und Zugriff auf die Pipeline-Datenbusse des RSPs. Andere konfigurierbare Logikmittei mit der ange- 
merkten Funktionaltt&t kdnnen ebenf alls benutzt werden, 

Beschreibung des ailgemeinen RSP-Bkx:kschaItbildes 

Nach der Fig. 3 besteht ein RSP-Bauelement typisdierweise aus sechs Funktionseinheiten: 
ALP: Adaptiver Logikprozessor. Eine programmierbare Logikstruktur, die die Implementiening von anwen- 
dungsspezifischen Logikschaltungen zur Steuerung extemer Bauelemente und Berechnungspipelines erlaubL 
Der ALP besteht aus einer Anordnung von Logikzellen, programmierbaren schnittstellen zu den Eingangs- 
/Ausgangsstiften einer RSP-Vorrichtung, programmierbare Verbindungen zwischen den Logikzellen imd Zu- 
griff zu den Daten der Pipelinebusanordnung (PBA). Der gesamte ALP kann der Implementiening einer 
Funktion zugeordnet sein oder es kdnnen mehrere kleinere Funktionen gleichzeitig ablaufen. Die ALP-Schal- 
tungen werden von der RPIC unter Verwendung von Daten im MPM oder vom Schaltbus konfiguriert Die 
Schaituxigen im ALP werden wahrend der Ausfuhnmg eines typischea Progranuns allgemein mehrere Male 
geandert. Schaltungen im ALP, bei denen die Konfiguration augenblicklich nicht geandert wird, bleiben akdv. 
RPIC: Rekonfigurierbare Pipelinebefehlssteuerung (ReconHgurable Pipeline Instruction Controller). Verant- 
wortOch fur die Koordinierung des Betriebes zwischen Funktionseinheiten. Die RPIC erzeugt den Bef ehJsadreB- 
strom zur Programmausfuhrung, decodiert die ftlr jeden Befehi erforderliche Operation, erzeugt Adressen zum 
Lesen und Sdireiben von Daten, erzeugt Steuersignale fur den ALP und PDP zur Bef ehlsausfuhrung und steuert 
die Rekonfiguration des gesamten ALPs oder eines Teils desselben. Die Steuerschnittstelle zwischen RPIC tmd 
ALP benutzt ein Pipelinesteueranschiusse (PCP-PipeUne Control Ports) genanntes Konzept, das ausfOhrlich 
unten beschrieben wird 

PDP: Pipeline-Datenprozessor (PipeUne Data Processor). Dies ist eine heric5mmliche Pipeline-AritiimetikYerar- 
beitungseinheit. Typischerweise enthalt sie eine ganzzahlige Mehrfunktions-Arithmetik Logikeinheit (ALU- 
Arithmetic Logic Unit). Sie kann auch fest zugeordnete Funktionseinheiten fur Multiplikations- und Gleitkom- 
maoperationen enthalten. 

Der PDP empf angt vom MPM, TBT oder ALP cingegebene Daten. 
MPM: Speicber mit Mehrfachzugriff (Multiple Port MemoiyX Ei»e schnelle Spcichereinheit, die gleichzeitiges 
Programmlesen-Datenlesen und Datenschreiben eriaubt Bei kleinen Anwendimgen liefert der MPM alle Erf or- 
demisse des Direktzugriffspekrhers (RAM-Random Access Memory). Bd grdBeren Anwendungen wird der 
MPM als cachespeicher fur auBerhaib des RSPs liegende grdBere Speicber benutzt Der MPM kann uber den 
Schaltbus oder uber einen fest zugeordneten SchnittstellenanschluB fur einen extemen Speicber beladen wer- 
den. 

TBT: Schaltbuskoppler (Toggle Bus Transceiver). Dieser stellt einen flexiblen DatenfluB zwischen mehreren 
RSP-Bauelementen bereit wenn er in der SIXD-Konfiguration benutzt wird Der TBT stellt auch eine standard- 
mafiige Eingabe-ZAusgabeschnittstelle fur exteme Speicher-, Sensor- und Betatigungsbauelemente bereit. In 
einer Anordnung von N RSP-Bauelementen bilden cfie TBT-Schaltungen zusammen ein Mehrstufenverbin- 
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dungsnet2(MIN-Multip^tage Interconnect Network). 

XAG: Extemcr Adrefigenerator. Damit werden die Adressienings^higkeitcn des RSP fOr groBe chipexteme 
Speicher crwcitert. Aadi liefert der XAG die AdreBfolge fOr Emschaltkonfiguriertmg des ALPs von einer 
chipintem«i odcr chipextemen Nurlesespeicher-<ROM.Read Only Mcmory)Vorrichtung. 

PBA: Pipelme-Busanordnung (Pipeline Bus Array): Acht Satze von Datenleitungen fOr DatenflQsse zwischen den 5 
Funktionseinheiten des RSPs, Die Aktivitat des PBAs eriaubt gleichzeitige Operation der angesdilossenen 
Funktionseinheiten mit hoher Geschwindigkeit Der allgemcine Gebrauch jcder PBA-Bnsdatenleistung ist wie 

PA: ProgrammadreBbus (Program Address Bus> Dieser definiert die Adresse des nachsten ais dem MBM 
auszulesenden Befehls. Der PA wird nur von der RPIC zur Programmf olgesteuerung gesteuert und getriebea lo 
RP: Leseprogranunbus (Read Program Bus). Der MPM-Ausgang liefert Befehlsdaten zur RPIC zur Programm- 
ausfOhnmg. Der RP kann auch vom TBT zur AusfOhnmg von aber den Schaltbus gclief erten Befehien angesteu- 
ert werden. 

RA: LeseadreBbus (Read Address Bus). Dieser fiefert die Adresse zum Auslesen von Datcn aus dem MPM Die 
RPIC steuert den RA zum Zugreifen auf durch das AdreSFeld in einem Befebl angegebene Daten an. Der RA is 
kann auch von einer ALP-Pipeline angesteuert werden, um Speicherzugriff fflr Datenanordnungen zu verdnfa- 
chen. Vom ALP erzeugte RA-Werte werden auf zweiexlei Weiscn von der RPIC synchronisiert Wenn <fie Daten, 
auf die Bezug genonmien wird, fOr den PDP bestimmt sind, dann wird eine konfigurierbare AdreBmodenerweite- 
nmg (CANDC-Configurable Address Mode Ertension) benutzt Wenn die Daten fOr den ALP bestimmt sind, 
syndvonisiert cEe RPIC den RA mit dem RD-Busgebrauch. 20 
WA: SchreibadrcBbus (Write Address Bus). Dieser liefert die Adresse zum Einschrdben von Daten in den MPM. 
Die RPIC steuert dm WA zum Enschreiben von durch das AdreBfeld in einem Befehl angegebenen Daten an. 
Der WA kann auch von einer ALP-Kpelinc angesteuert werden, um Spdcherzugiiff fur Datenanordnungen zu 
vereinf achea Vom ALP erzeugte WA-Wcrte werden auf zweierlei Weise von der RPIC synchronisiert Wenn 
die Daten, auf die Bezug genommen wird, fOr den PDP bestimmt sind, dann wird eine konfigurierbare AdreBmo- 25 
denerweiterung (CANX-Configurable Address Mode Extension) benutzt Wenn <Ee Daten fur den ALP be- 
stimmt sind, synchronisiert dieRPICden WAmitdcmWD-Busgebrauch- 
RD: Lesendatenhus (Read Data Bus)l Dieser Bus fOhrt Daten vom MPM fOr den PDP, Daten vom MPM fOr den 
ALP Oder Daten vom ALP fOr den PDP. DatenUbertragung vom ALP zum PDP ist stets mit einer CAMX 
synchronisiert 30 
WD: Schreibdatenbus (Write Data BusX Di^er Bus fOhrt Daten vom PDP zum Bnschreiben in den MPM, Daten 
vom ALP zum Einschreiben in den MPM oder Daten vom PDP zum ALP. PDP-ALP-Cbertragungen werden 
unter Verwendung einer CAMX synchronisiert ALP-MPNl-Obertragungen werden durch Bcfehle "ALP spei- 
chem" Oder durch eine unten beschricbcne Folge selbstandiger Pipefineakdon (APA-Autonomous Pipelme 

Action) synchronisiert . ^ 

RX: Extem-Lesebus (Read External Bus). Dieser Bus fOhrt chipexteme Daten vom TBT zum PDP, ALP oder 
MPM. Das Lesen von extemen Daten wird durch die RPIC synchronisiert TBT-ALP-Obertragungen speisen 
Daten in eine ALP-Kpeline- die mit anderen Orten verkettet sein kann. TBT-PDP-Dateniibertragnng wird 
durch Ausfuhrung von Befehien ThT eingeleitet TBT-ALP-Obertragungcn werden durch BefeWe mit 
CAMX Oder dutch selbstandige Pipelineaktion eingeleitet -«> 
WX: Extem-Schreibbus (Write External Bus). Dieser Bus fOhrt vom PDP oder ALP ausgegebene Daten Ober 
den Schaltbus zu extemen Bauelementen. PDP-Ausgabe wird unter Verwendung von Befehien "OUT cmgelei- 
tetALP-TBT-Obertragungen werden durch Befehle 'OUT oder durch selbsttatige Pipelineaktion eingeleitet 
Zusatzlich zu den PBA-Bussen enthalt ein typisches RSP-Bauelement weitere spezialisierte Daten- und Steuer- 
busse 13L Es gibt fiinf Hauptdatenwege. die die Verbindung eines RSP-Baudements mit anderen RSP-Bauele- 45 
menten, chipextemen Speichem, Sensoren und Bctatigungsgliedem ermdglichen. Die allgemeine Nulzung 
dieser Datenwege ist wie folgt: ,^ , . 

P: Haupt-SchaltbussdmittsteUenbus (Primary Toggle Bus interface busX Dies ist die vorgegebene Datenschmtt- 
stelle for einen extemen Speicher. Wenn mehrere RSP-Bauelemente in einer SIMD-Anordnung benutzt werden, 
arbeiten die P- und Q-Busse zusammen, um ParallelverarbeitungsdatenfluBmuster zu crstellen. Wenn nur ein 50 
RSP in emem System benutzt wird, fungiert der P-Bus als standardmaBiga- Bus mit drei Zustanden (siehe 

Q^eknndarer Schaltbusschnittstellenbus (Secondary Toggle Bus interface bus> Wenn nur ein RSP in emem 
System benutzt wird, kann der Q-Bus als zweiter Bus mit drei Zustanden oder als rekonfigurierbarer Satz von 
Eingangs-ZAusgangsstiften fOr exteme Speicher-, Sensor- und Betatigungsgliedverbindung benutzt werden. 55 
Wenn mehrere RSP-Bauelementc in emer SIMD-Anordnung benutzt werden, werden die Q- und P-Leitungen 
unter Verwendung eines "Mischverdrahtungs-'Musters zusammengeschaltet P und Q arbeiten dann zusammen 
mit dem Satz TBT-Schaltungen, um em MIN-Parallehrerarbeitungs- Vcrbindungsnetz zu crstellen (siehe Hg. 1 7). 
A: Primarer AdreBbus (Primary Address Bus). Als Vorgabe wird der A-Bus zur Adressierung von extemen 
Speicherbauelementen von der XAG-Einhcit aus bcnutrt Wenn er nicht fOr diesen Zweck benutzt wird. kann 60 
der A-Bus dxuxh programmierbare Logik im ALP als rekonfigurierbare Eingabe-ZAusgabeleitungen zum An- 
schalten an exteme Sensoren und Betatigungsgjieder angesteuert werden. 

C: Steuerbus (Control Bus). Wenn mehrere RSP-Bauelemente in einer SIND-Anordnung benutzt werden. bildet 
der C-Bus den Schaltbussteuervektor, der vom Bushauptsteuenmgs-RSP (Bauelement N der Fig. 2) erzeugt 
wird. In diesem Fall ist C ein Eingangsvdctor zu den Datenverarbeitungs-RSP-Bauelememtcn (Bauelemente 0 65 
bis N— 1)l Wenn nur ein RSP in einem System benutzt wird, kann der C-Bus durch programmierbare Logik im 
ALP zur S teuerung extemer Sensoren und Bet^tigimgsglleder angesteuert werden (siehe Fig, 1 7), 
B: Sekundarer Datenbus (Secondary Bus). Als Vorgabe ist der B-Bus eine sektmdare zweiseitig gerichtete 
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SchnittsteUe fflr extenie Speicherbauelemente unter der Steuerung dcs XA^Gs. In dieser Betriebsweise kSnnen 
exteme Daten zwischen dem RSP imd cxtemen Speichern ohne Verwcndung des Schaltbusses Qbertragen 
werdcn. Dies ermoglicht eine hohere Leistimg bci Anwendungen. die die gesamte Schaltbusbandbreite fur 
Prozessor-Prozessor-Kommunikation benutzen. Der B-Bus kann von ALP als rekonfigunerbare Emgabe-/ Aus- 
gabeleitungen f Or den AnschluB von extemen Sensoren iind Bctatigungsgliedcni angesteuert werdea 

Zusatzlich zu diesen primaren Daten und AdreBschnittstellenbussen sind mehrere einzelne Steuersignalan- 
schlusse an einem RSP-Baustein derXakteingabe, extemen Speicherstcuerung usw. zugeordnet 

Dateofonnate und Spetcheradressieningsmodi 

Ein RSP-Bauelement kann unter Verwendung von 16-Bit% 32-Bit- oder 64-Bit-Datenwegen entwickelt wer- 
den. FQr DarsteUungszwecke wird ein RSP-Bauelement mit IS-Bit-Datenworten benutzt Jede Speicheradresse 
bezieht sich dann auf ein IS-Bit-Datcnwort Genaue Einzelhwten der Befehlswoitbit werden yon der Art der 
benutzten PDP-Einheit abhangig sein. Die Fig. 4 zeigt das Fonnat der Grundbefchlstypen fur erne beispielhafte 
PDP- und ALP-BefeUsschnittstene. Der Befehi des Typs NuUadresse (ZA-zero address) benutzt em gesarates 
Wort fur den OperationscxKle (OP) des Bef ehls und wird fur Operationen benutzt, die keinc BefehlsadreB- oder 
Parameterf elder (beispielsweise Loschen Akkumulator, Beginnen Konfigurationsfolge) erforderiL Die Be^hle 
mit dem Format kurze Konstante (SC-short constant) benutzen einen g-Bit-Operationscode und em a-Bit-Kon- 
stantenfeld (C^ SC-Befehle fuhren Funktionen wie beispielsweise Hinzuad<fierea einer Konstante zu emem 
Akkumulatorergebnis durclu Das Format lange Konstante (LC-long constant) benutzt zwei Wort^ urn Opera- 
tionen mit einer voUstandigen 16-Bit-Konstante zu ennogUchen. Die meisten Arithmetikbefehle un RSP smd von 
dem Format Kurzspeicher(SM-short memory). Die oberen acht Bit defimeren denOperationscod^ Das nochst- 
wertige Bit des unteren Bytes (i) ist das Steuerbit nndirekte Speicherreferenz* und die ubngen sieben Bit (A) 
definieren einen kurzen >VdreBwert oder einen indirckten Speicherzugriffsmodus, wie unten besctoeben. Das 
Langspeicherfonnat (LM-teng memory) erlaubt direkten Zugriff zu dem voUen Speicherbereich em^WieBUcb 
chipcxtcmer Speicherreferenz. Das LM-Format wird auch fOr Bef ehle des Typs "Sprung- und "AufruT benutzt. 
Das Spercherverschiebe^MS-memory shift)Format erlaubt Speicheriese, und Schreiboperationen nut zugehSn- 
ger Datenverschiebung unter Verwendung dnes Vier-Bit-Versdiiebungszahif eldes (S). Die Speicherrcgisterbe- 
fehle (MR-memory register) ermogUchen die Obertragung von Daten zwischen dem Speicher und bis zu acht 
30 AdreBregisteminderRPIC . . 

Die AdreBwerte, auf die durch RSP-Befehie und die PA-, RA- und WA:-Busse Bezug genommen wird, zeigen 
auf Werte in vier getrennten AdreBraumen in Abhangigkeit vom Bef ehktyp: 

Programmspeicher— ZielvonBefel]lendesTyps"Sprung"und"Aufrur; . „ j.. 

Datenspeicher — Zicl von ALP- und PDP-Datenlese- und Schr«bbefehlen wie beispielsweise "Zuaddieren zum 

^ E^^^ium^Ziel von extemen ALP- und PDP-Datenubertragungen. Wird durcb <fie Bef ehle des Typs "in" und 

lSSiM?Sigsraum - Werte der programmierbaren ALP-Kemzellen- und Verbindungsfunktion. Die zur 
Defimerung der ALP-Schaltungen crforderiichen Daten sind in einem linearen Adreflraum zur Andenmg durch 

4o das Programmadressierbar.Ziel der Konfigurations-Lese- und Schreibbef ehle. , . ^ « * ui 

Auf den Datenspeichcrraum wird direkt im RSP zugegriff en. wenn das indirekte Adressicrun^bit des Befehls 
einen Wert V aufweist In diesem Fall wird das sieben-Bit-AdreBfeld mit einem 'T)atenscite''-AdreSwert m der 
RPICverkettettUmdievollstandigeDatenspcicheradressezubilden- . . • u 

Der Wert T^atenseite" kann durx:h einen Befehi "Seite setzen*' geandert werden. Die meisten Datenspeicher- 

45 bezugnahmen werden unter Verwendung indirekter Adressierung 0 Bit ist •!-) durchgefOhrt In <liwem FaU 
beziehen sich die niedrigeren drei Bit dcs AdreBf eldes (Feld R) auf das zu benutzende AdreBregister m der RPIC 
und die ubrigen vier Bit definieren den Adressierungsmodus (AM) nach TabeUe L RO steUt den Inhalt des 
AdreBregisters 0 dar. 
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Tabelle 1 
RSP-BefehlsadreBmodi 



AH 


Nase 


Datea 


0 


Register 
DireJct 


{R) Inhalt des Registers 


1 


Register 
Xndirekt 


KPM [(R)3 Register ist Adressa der Daten im 
ISFH*DatenraT3ift 


2 


Automatisclio 
Srhclxung 


HPM C{X+*>1 Brhohea R nach Zugriff 


3 


Autoznatische 
zmiedriguzig 


MPK CC— R)l Bmicdrigcn R TOr Zngriff 


4 


Zndexiert 
Dire3ct 


(R) ♦ (RO) 


5 


X&dexiert 
mdirefct 




8 


ALFA 


T Kmr TRAl • AliP -Pipeline liefert 
Iteseadresse 

Schreiben: MPH CHAW AI.P-Pipeliae liefert 
Scfarexbadresse 




AIiFW 


WB; POP-Axisgabo liefert Datea xa A1.P* 
Pipeliaa (s) 


10 


AZiSRO 


RD; ALP-Pipeliae 0 liefert ©atea sum TOP 


11 


AURl 


RD; AIiP -Pipeline 1 liefert Datea zum PDP 



to 



15 



20 



30 



35 



45 



50 



AdreBmcxfi 0 bis 5 stenen typischc Adresaenrngsmodi dar und and von der genauen Sttukttir des PDP-Mo- 
dolsabhingitAdreBmodiSbis 11 sindeinmaligfOr das RSP-KonzeptdervorUegenden&find^ 
als konfigoriCTbare AdreBmodi (CAM-Configurable Address Modes) bezeidineL Der ALP-Modus erlaub^ daB 
die Adresse fOr eine Speicherschreib- oder Lescoperatfon voneinerTtA-Pipeline;m AlPzum 1^^^ 
eine -WA-Plpeline" im ALP zum Datenschrdben gellefert wird Die AdreBmodi ALPRO und ALPRl eriauben 
die direkte Verwendung der Ausgabe von einer von zwei ALP-Pipelines als Operand Rir eine Operanon im PDF. 
Der AdreBmodus ALPW erlaubt die direkte Verwendung von Daten aus dem PDP als Operandenemgabe m 
eine oder mehrcre ALP-Pipelines. ZusitzEch zum Zugriff auf <fie Pipeline-Busanoraumg (PBA) im ALP durdi 
konfigurierbare AdreBmodenoperationenkanndurcli M-PM-ALP- and ALP-MPM-Obertragungsbefehle expU- 
zit auf ALP-Daten Bezug genommen wcrden. Datenflbertragungen kSnnen auch nnter Verwendung der selbst- 
standizen Pipelinesteuemngs-<APC-Autonomous Pipeline ControI)Fihigkeit auftretea die unten erkBrt wmL 
Es ist zu bemcrkcn, daB, obwohl die TabeUe t eine mOgfiche Menge von Reg^sterzuweisungen zeigt, andere 
Zuweisungen in AbhSngigkeit von den Erfordemissen des ALP-Kerns benutzt werden kSnnen. 

AUgemeine Stmktur des adaptiven Logikprozessors 

Der adaptive Logikprozessor (ALP-Adaptive Logic Processor) besteht aus einer Anordnung prograimmerba- 
rer Logikzellen und einer Anordnung programmierbarer Schalter, die den DatenfluB zwischen den ZeDen 
erlauboL Diese Hemente bUden ein konfigurierbares Logikmittel das in die RSP-Architektur emgebaut ist Dct 
ALP enthalt die pipeline-Busanordnung (PBA) und rekonfigurierbare Engangs-Musgangsanschltee. Die Fig. 5 60 
steUt die Grundelemente des ALP 120 in einer AusfOhningsweise mit 32 horizontalen Zeflen ond 64 vertikalen 

Im angemeinen Fall besteht ALP 120 aus drei Sdiahungsscbichten, die fOr die RSP-Architektur spezifische 
Funktionen duidifiihren. Die Gmndschicht wird <fie "Kemzellenanordnunr genannt und besteht aus emer 
zweidhnensionalen Anordnung von logischen Kemzenenschakungen ISft Jede Kemzeaensdjaltimg e^t cm 
Konfignrationsregister. das unter Steuerung des RPIC-Blocks hdaden werden kann, wenn em Befehi "Rekonn- 
euratbn- ausgefiihrt wird Der Wert imKonfigurationsrcgister dcfiniertdie von der K«n2eUe durdimfiaffende 
Logikfnnfction und definiert Verbindungcn ffir die Logikeingabe- und Ausgabesignale dtr KemzeDe. Die konfi- 
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gurierte Funktioa einer ICemzelle ist typischerweise eine Boolsdie Operation mit mehreren Eingaben und 
mehreren Ausgaben, die ciaen oder mehrere Datea-Flipflops enthalten kann. Bei einer typischcn Ausfuhnings- 
form CQthalten einige oder alle der zur Implenientienmg dcr Boolschen Operation benotigten Signale Verbin- 
dungen zu den nachsten Nachbarkemzellea Dies stellt die unterste Ebene von Kernzellenverbindungen dar. 

Die zweite logische Schicht der konfigurierbaren Logikanordnung (ALP) besteht aus SignaUeitungen und 
Schaltem. die die Obertragung von Signaiwerten uber eine Entf emung von mehreren Kemzellen eriauben. Dies 
wird als Xokaibusanordnung* bezeichnet Jede Kerazelle kann eine Eingabe von einem oder mehreren Lokalbu- 
sanordnungsvcrdrahtungssegmenten empfangen und kann Daten zu einem oder mehreren Lokalbusanord- 
nungssegmenten liefem. Jeder Satz von Lokalbusverdrahtungswegen uberspannt einen als 'Kemblock" 152 in 
der Rgur bezeichneten Bereich. Die Schaltungen, die einen Signalaustausch zwischen Kembldcken eriauben, 
werden Cm der Figur nicht gezeigte) "^erstarker- "Schaltungen genannt Jede Verstarkersdialtung enthalt auch 
ein Konfigwationsregister, das definiert. wie Signale von einem Kerablock zu einem anderen flieBen. Die rweite 
togische Schicht der konfigurierbaren Logikanordnung enthalt auch Mittel zum Verbinden von Signalen in der 
Anordnung mh den rekonfigurierbaren E/A-AnschluBtreibem 153, die die Hauptschnittstelle zu einer RSP-Vor- 
richtung darstellen. Jeder AnschluB am RSP weist eine programmicrbarc Schnittstdlenschaltung auf, die durch 
ein Konfiguradonsregister gesteuert wird Damit kann jeder AnschluB eine Vorgabebedeutung (wie beispiels- 
weise eine der Eingangsleitungen vom Schaltbus) oder cine rekonfigurierte Verwendung (Logikeingang; Lx>gik- 
ausgang oder zweiseidg gerichteter Dreizustandsbustrdber) aufveisen. In der Figur sind rekonfigurierbare 
E/A-AnschiuBmittel 153 als die Leitungen "A", "B", XT, T)''. MPU. und 'Q* gezeigt Auch werden an der 
Peripherie der konfiguriert>aren Logikanordnung detaillierte Steuersignale typischerweise rur Verfugung ge- 
stellt In der zweiten logischen Schicht sind zur Implemenderung der Pipelinestufen einer typischen Anwcndung 
konfigiuierbare Takt- und Rucksetzsignale uber die gesamte Anordnung verteilt 

Die dritte Logische Schicht der konfigurierbaren Logikanordnung (ALP) implemcntiert die Pipeline-Busan- 
ordnung (PBA) 132 und Pipeline-SteueranschlQsse (PCP) 134. Die SignaUeitungen in dieser Schicht aberquercn 
das gesamte horizontale AusmaB der Anordnung und teilen LS die Anordnung in zwei logische Bereiche ein. Die 
PBA-Leitungen durchqueren das "Datenweg-^Gebiet 156» wahrend die PCP-Leitungen das '^teuer-'tyebiet 15B 
uberqueren. Im allgemeinen Fall ist eine spezifische ALP-Schaltung ein 'Wpelinesegmenf 160 genanntes recht- 
eckiges Gebiet der Anordnung, das emen Datenweg enthalt. dcr mit einem oder mehreren PBA-Busen und 
einem Steuerabschnitt, der an einen oder mehrere PCP-Leitungssitze angeschaltet ist, verbunden ist. Im allge- 
meinen konnen gleichzeidg mehrere Pipelinesegmente im ALP resident sein und jedes beliebige Segment kann 
rekonfiguriert werden, ohne die Operation der ubrigen Segmente zu beeinflussen* Der Vorgang des Anderns 
von nur einem Teil der Logikanordnung ohne Beeinflussung der Operation des ttbrigen Teils wird 'teilweise 
Rekonfiguration" genannt Teilweise Rekonfiguration eriaubt Optimierung der Nutrung des konfigurierbaren 
Logikmittels durch die Entwicklungssoftware. Die Verbindung der Kemzellen- und Lokalbussignale mit den 
PBA- und PCP-Signalen wird durch horizontale Verstarkerschaltungen durchgefahrt, die eine direkte Verbin- 
dung eines Lokalbussegments mit einer beliebigen der mdglichen PBA-Bideitungen erlaaben» die die Zcile der 
Anordnung flberqueren. Dadurch kann em Pipelinesegment ohne ein Erfordemis zusatzlicher Signalwegefuh- 
rung auf jede beliebige horizontale Lage in der Anordnung veriegt werden. Durch dieses Wiedervertegungs- 
merkmal wird die automatische Erzeugung der zur DurchfQhrung einer Berechnung benStigten konfigurierba- 
ren Lo^kschaltungen dramattsch vereinf acht 

Jede Kemzelle 150 der ALP-Anordnung 120 kann zur Implementierung einer behebig groBen Anzahl von 
Logikfunktionen programmiert werden. Dazu gehdren Operadonen wie logisches UND, ODER, XOR, Multiple- 
xer- und Flipflop-Operationen. Wie bemerkt, eriaubt die Peripherie der Kemzellenanordnung die Verbindung 
mit den programmierbaren E/A-Anschlussen 153 an einem RSP-Baustein. Jede Kemzelle kann (mitteb der 
programmierbaren Verbindungsschalter) zum Zugreif en auf eines oder zwei Signale aus den vier Nachbarkem- 
zellen programmiert werden. Jede Kemzelle kann auch Daten auf einem Qn der Figur mit gestrichelten Linien 
gezeigten) Lokalbu5anordnungs-(LBA-)Segment empfangen oder ubertragen. Wie bemerkt, bilden die LBA- 
Verbindungcn fOr eine Teihnenge der Kemzellen einen (bereits erwahnten) sogenannten Kerablock. Der 
Kemzelle und dem LBA-Netz ilberlagert ist die Rpeline-Busanordnung (PBA) 132, die Signale fuhrt, die die 
gesamte Anordnung in der horizontalen Richtung Qberqueren. Wie bemerkt, eriauben 'Verstarker^ genannte 
Schaltungen die Weiterfuhrung der LBA-Daten zu Nachbarbldcken, den programmierbaren E/A-AnschlQssen 
und der PBA. Ein Satz programmierbarer Takt- und ROcksetzsignalgeneratoren 154 aberqueren <tie Anordnung 
in der vertikalen Richtung. Diese Signale erm5glichen, daB Jede Spalte als Pipelinestufe in der Anordnung 
f ungiert Die PBA-Datenleitungen 132 eriauben Verbindung mit den Bussen RD, WD, RX, W5C RA und WA im 
RSP. Die PCP-Steuerieitungen 134 stellen programmierbare Steuer- imd Statusleitungen dar, die zur ALP-Pipe- 
linesteuerung direkt mit der RPIC verbunden sind Die Rg. 5 zeigt den typischen Bereich, der von einem 
programmierbaren Pipelinesegment 160 einer Berechnung bcnutzt wiri Jedes Pipelinesegment besteht aus 
einer Anzahl von Pipeline-Datenwegstufen im Tipelinedatenweg-"Bereich 156 des ALPs und den zugehdngen 
Kpelinesteuerschaltungen im TSpelinesteuerbereich" 158L 

Wie bemerkt, besteht ein einmaliges Merkmal des ALP darin, daB die Definidoaen der LBA-PBA-Verbmdung 
im Pipelinesegmentkonfigurationsblock erbuben, daB sich das Pipelinesegment an einer bdiebigen horizontalen 
Stelle im ALP befindeL Dadurch konnen gcgenwartig unbenutcten Pipefinesegmenten je nach Bedarf der 
aktuellen Aufgabe im Anwendungsprogramm neue Pipelinesegmente uberiagert werden. In einem RSP-basie- 
renden System wird die detaillierte Konfiguradon und Programmierung der benotigten Pipelinesegmente 
wahrend des Programmkompilienmgsprozesses erstellt Die zur Konfigurierung eines Kpelinesegmente ben5- 
tigten Daten werden als Konfiguradonsblock (CB-Configuration Block) bczeuimet CB-Daten werden im Pro- 
grammadreBraum des RSPs gespeichert und unter Verwendung von KonHgurationssteuerbefehlen in den ALP 
eingeladen. 
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AUgemeine Konz^te der RPIC 

Die rekonfigurierbare PipeKne-Befehlssteucrung (RPIC Reconfigurable Pipeline Instruction ConttoQ ist dafur 
verantwortiich, die Reihenfolgc der Befehlsausfuhnaig unter Vervendung der ProgrammadreBbusIemmgen 
fPA^ zu bewahren, auszufiihrende Befehle vom Speidier unter Verwendimg der LeseprogramnKRP-R^ 
Program) Busleitungen zu empfangen und dea Pipeline-DatenfluB in der Pipeline-Busanordnung zu koordmie- 
ren. Aucb fuhrt die RPIC vom Schaltbuskoppler emplangene BcfeUe rnr Implemeimenmg von ParaUelverar- 
beitungsstrukturen aus. Wie bemerkt, bUden die Qbrigen sechs Busse (siehe Fig. 3) die pipehne-Busanordnung 
fPB Al die gleichzeitigen DatenfluB zwischen der ParaDelvcrarbdtangsverbindungsstniktur (TOT^ <tem tonfigu- 
rierba^ Logikmittd (ALP), dem Speichermittel (MPM) und dem skalaren Prozessor (POP) erlaubt Im aDge- 
meinen FaU kann die PBA mehr oder weniger Busse als gezeigt aufweisen, sollte aber nundestens ranen 
Datenadressbu^ eine interne Datenbusverbindung mt dem skalaren Prozessor, eine Busverbmdimg znm Spei- 
dier und eine Verbindung zn der Parandverarbeitungsverbindungsstroktur enthalten. In dem besprochenen 
Betsoid besteht die PBA aus sedis Bussen fir Speidierieseadresse (RA-read address^ Speichersdireibadresse 
fWA-write addressX Sdialtbosdateneingabe (RX)t Schaltbusdatenansgabe (WX)l Lesedaten (RD-read dat^ und 
Sdirdbdatcn (WD-write data^ Die Busse RD und WD smd jcwcils in zwei getrwinte AlP-Block-mtMne Busse 
aufeetdlt Diw ermSgficht einen getrennten DatenfluB zwisdien dem ALP-Block. dem Speicherblock und dem 
skJaien Prozessor. Im FaH der aUgemeinen Architektur konnen der PBA zusitzliche Busse hmzugcfagt werden, 
dnsdilieBBdi beispidsweiseder Programmadresse-(PA) und Leseprogramm- (RP-) BiBsehmzugefQgt werden. 

Der PipeBnesteuerblodtsteht in Wedisdwiricung mit dem skalaren Prozessor zur AusTChnmg von st^d^ 
maBieen Bcfdilen unter Verwendung von herkommUdien Pipeline-Steuerkonzepten. Der RPIC-Btocksteht mit 
dem konfigurierbaren Logikmittd unter Vervrendung eines ab Pipeline-Steueianschlflsse O'CP-Pipehne Con- 
trol Ports) bezttdmeten Satzes von Ldtungen in Wediselwirfcung. Jeder PCP eriaubt, daB eine konfigonerbare 
Logiksdialtung m ALP rait den auBerhalb der konfigurierbaren Logik vorkommenden Pipdme-DatenstoSmen 
in Wediselwirkung tritt. Typisdierweise besteht eine PCP-Menge von Steuersignalen fOr jeden Pipeto^Busan- 
ordnungsbus. Die Grundoperationen jedes Pipeline-Steueransdilusses, cKe Implementienmgen der RSP-Arclii- 

!SfSSSJ^:^fe'RPrc'^^kennt Befehle im Programm, die im Gegenatt zu einer AusHhn^ im 
skalaren Prozessor PDP durdi die Sdialtungen mi ALP auszufOhren smd Die KMC fef 
ALP-Schaltung an. indem sie ein Signal im PCP andert Wenn die l^-^^^^^^^"^,^^ 
wirddie RPICdie BefchlsausfQhnmgspipeUne aufhaltcn. Manbeachte.daB die piClJCHT auf «J«yo»lendmig 
dner BefehlsausfOhrung im ALP wartet, da eine typisdie ALP-Funktion mehrere Taktzyklen erfordert. Die 
RPIC kann im Gegenteil mit jedem TaktzyUus cine neuc FunkdonsausfOhrung einleitra. Dies ist dertypische 
Fan far die Implementierung der tiefen Pipelines in dner Anwendung. Die FunknonsausfOtamgssteuerKhigkeit 
wird audi zur Implementierung der Fahigkeiten zur Erweiterung des Befehlsvorrats fOr erne Anwendung 

^SSammdatenanforderunr- Diese Art von Obertragung wirddann dordigetthrt, wenn ein stolarer BefeW 
auf einem ALP-Bus ds die Adresse fOr Daten im Speidier oder als die Daten ftr einen Befehl B«aug i^t 
Diese werden als "konfigurierbare AdressmodT bezeidmet. Beispielsweise kann die Ausgabe emer ALP-PipeU- 
ne direkt als Operand fOr dnen Befehl "ADD" im Skalarprozessor benutzt werden. Als -Mterrattve Mnnen 
Daten inter Verwendung dieses Medianismus direkt vom skalaren Prozessor zu emer AlP-Sdwltung obertra- 
gen werden. AbsdilieBend kann der Befehl des skalaren Prozessors die ^n^be emer AIJ»-Pipeline alsAdresse 
& erne Spddierschreib- oder Leseoperation benutzen. Durdi den RPZC-Block wird die Reihenfblge der 
Datenflbertragung bewahrt, indem gegebenenfalls Wartezyklen eingespdst werden, urn ordnungsgemSBen 
Piodine-Betrieb aufreditzueriialten. Der Steuermedianismus der Programmdatenanforderung wird zur impie- 
mendening von Rhigkeiten der Verbesserung des Bef ehlsvorrates und komplizierter AdreBerzeugung fOr eme 

^^sttSlge'SSwianfordening: Eine AUP-Sduiltung kann Datenubertragungen zu/von dem Speichernuttel 
und zu/von dem Sdialtbuskoppler unabhangig von der Programmbdehlsfolge anfordem. Diese werden sdbst- 
standige- DatenQbertragungen genannt In einem typisdien Fall wird die gesamtc Beredmung m emer Gruppe 
von RSP-Vorriditungen unter Verwendung des Medianismus der sdbststindigen Datenuberttagung ohne 
BefehlsausfOhrung fOr die einzetaen Sdiritte durdigcfOhrt Zur Ausgabe von Daten zum Speicher oder dem 
Sdialtbus aktiviert die ALP-Schdtung em PCP-Signal zur RPZQ das eine Ausgabeflbertragung anfordert Der 
RPlC-BIock untemimmt dann die notwendigen Sdiritte zum Einsdireiben der Daten in den Speicher oder 
Ausgeben der Daten uber den Schaltbus. Wenn das gewiinschte bCttd "besetzf , isVmuB die A^-S^altung 
weitere Operationen solange aufhalten. bis das PCP-Signal anzdgt. dafl dis Mittd verffigbar isL Ene ahnlidie 
Wechselwirkung tritt fOr Spdcherdatenlese- und Schaltbusdatenleseoperationen em. Selbststandige Datenflber- 
tragungen werden zur Implementierung von PipeDnevericettung von einer RSP-Vomdittmg zu emo- anderen 
Qba- den Schaltbus benutzt Der Mechanismus der selbstindigen Obertragung wird auch dazu benutzt, direkten 
ZuCTiff zum Speidiermittel durch eine oder mehrere Stufcn in einer tiefen Kpdmestruktur zu ertenben. 

Im aDgemeinen FaU enthSlt der Pipdine^teueramchluB (PCP) typischerweise znsatthAe Signale. Bei der 
beispielhaften RSP-Imp!ementierun& die besprochen wird, werden folgende rusitzhche OperationMi unter- 

Pioeline-Zustand: Die konfigurierbare Logikschdtung erzeugt dn oder mehrere status-Zustandssignal^ die 
dim* den BefehlsausfOhrungsstrom unter Verwendung von Befehlen -bedingter Spnmr flberwacht werdoi 
kennen. Diese Fahigkeit wird als Ted des normalen Rechenvorgangs zur Auswahl von altemativen BefeMsflnii- 

^Sne-lSSrtrechung: Die konfigurierbare Logiksdialtung erzeugt eine Unterbrechungsanfordenmg an den 
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RPIC-Block» die die Ausfuhmng eines spezifischen Softwareunterprogramras bewirkt Die Uaterbrechung wird 
durch die Ausfuhmng eines Funktionsanfordeningsbefehls an den PCP bestSdgt, der die Unterbrechungsanfor- 
denin^ erzeugte. Mit diesem Mechanismus kann die ALP-Schaitung den skalaren Prozessor als Teilprozessor 
fur die konfigurierbare Logik benutzen. Diese Fahigkeit wird auch zur Implementierung von eingabe-/ ausgabe- 
vorrichtungshangigen Berechnungen benutzt 

Wie bemerkt, ist die rekonfigurierbare Pipelinebefehlssteuenings-(RPIC-)Einheit im RSP verantwortUch fur 
die Steuerung der Programmausfuhning, Koordinierung der Tadgkeiten des Datenflusses zwischen den Verar- 
beitungseinheiten und Konfigurierung der programmierbaren Schaltungen im ALP. Die Grundfunktionsopera- 
tionen der RPIC lassen sich in f unf Kategorien einteilen: 

Einschaltinidalisierung — Setzen der Steuerk)gik-Flipflops und programmierbaren Logik auf Vorgabezustande. 
Dieser Vorgang kann auch nach der Einschaldnitialisierung durch Akdvieren eines extemen Konfigurationsfret- 
gabesignak oder durch Ausfuhmng des Bef ehls "REBOOT* eingeleitet werden. 

Dynamisdie Rekonfigurierung RSP-Befehle erlauben, daB alle oder ein Teil der ALp-Schaltungen wahrend 
der Programmausf uhrung geandert werden kdnnen. 

ProgranunfluB — Auslesen der erforderlichea Bef ehlsfolge fur das Anwendungsprogranun aus dem MPM. Dazu 
gehdrt auch die AusfQhrung von 'Sprung-* und *Aufruf-'Bef ehlen, die den aktuellen Wert des Programm-AdreB- 
registers (PAR) andem. 

MPM-Datenzuarif f — Erzeugt die Adressen fur Datenlese- und schreiboperationen am MPM Die konfigurier- 
baren AdreBmodi (CAM — Configurable Address Modes) ermoglichen der RPIC die Benutzung von durch 
ALP*PipeIinesegmente erzeugten Adressen. 

Pipeline-Synchronisierung — Datenfliisse im ALP, MPM, PDP und TBT werden als unabhangige Pipelincketten 
behandeit. Die RPIC erzwingt den Pipeline-Verzogerungszustand durch Bnfilgen von Wartezustanden in jeder 
Situation, in der die Daten mcht in einem bestiinmten Taktzyklus zur VerfQgung stehen. 

Filr die folgende Besprechung wird angenommen* daB die Operation der Pipeline im PDP auf der in Fig. 6 
dargesteliten klassischen Befehlsausfuhnmgsfolge nach Von Neumann basiert Solange kein Konffikt besteht, 
wird in dem 'Abruf-'Zustand in jedem Taktzyklus ein neuer Befehi ausgelesen. Jeder Befehl schreitet dann durch 
den "IDecodier-'^ustand im nachsten Taktzyklus fort. Bei normalen PDP-Befdilen (wie beispielsweise in einen 
Akkumulator addieren) werden die Daten helm dritten Taktzyklus des Befehls aus dem MPM ausgelesen und 
dann wird der Befehl schlieBlich beim vierten Taktzyklus ausgefuhrt Vom Progranun eingeleitete Befehlsaus- 
fahrun^ in einem ALP-Pipelinesegment bedient sidi bis zu dem Punkt, an dem der Befehl ausgefuhrt wird, 
dessdben Schemas. ALP-Pipelinesegmente erfordem im allgememen einen zusitzlichen Ausfuhrungstaktzyklus 
for jcde Pipelinestufe im Segment Die RPIC wartet nicht, bis die Daten alle Stufen einer ALP-Pipeline 
durchiaufen haben. Wenn ein Befehl ausgefOhrt wird, der sich auf einen ALP-^pelinebusgebrauch bezieht^ wird 
die RPIC die Befehlsfolgenpipelinis solange aufhalten, bis die Pipelinesegmentsteuerschaltung im ALP den 
Zustand "Pipeline bereit* anzeigt RSP-Befehle, die Daten aus dem ALP aus lesen, und die konfigurierbaren 
AdreBmodi erfordem gleichermaOen die Signale "bereit* von der konfigorierbaren Pipelinesteuerschaltung, ehe 
sie mit der Operation fortschreiten. 

Die RPIC ist auch fur die Koordinierung der selbststandigen Pipelinesegment-(APS-Autonomous Pipeline 
Segment)Operationen verantwortlich. Jedes ALP-Pipelinesegment kann so ausgelegt werden, daB es unabhan- 
gig von der normalen Programmausfuhrungsfolge arbeitet Das helBt, ein APS erfordert keine Befehlsausfuh- 
rung, um durch die Pipeiinefolge fortzuschreiten. Schaltungen des APS-Typs werden hauptsachlich fur asynchro- 
ne Schnittstellen zu extemen Sensoren und Betatigungsgliedem benutzt, aber sie werden auch fiir die Sdialtbus- 
steuenmg des C-Vektors fiir das Bushauptsteuerungs-RSP-Bauelement in einer SIND-Anordnung benutzL Die 
"^ereit^ Signalschnittstelle wird dann von der RPIC zur Synchronisierung der Programmausfuhrung mit dem 
APS-Betrieb benutzt 

Wie bemerkt, basiert die Steuerschnittstelle zwischen der RPIC und den Pipelinesegmenten im ALP auf einem 
Pipeline-SteueranschluB (PCP) genannten ProtokolL FOr eine spezifische RSP- Implementierung kdnnen gleich- 
zeitig mehrere PCP bis zu einer Hocfastzahl im ALP aktiv sein. Die RPIC/ALP-SteucrschnittsteUe besteht aus 
einer Menge von Pipeline-Busanordnungs-(PBA-PipeIine Bus ArTangement)Signalen (die die PCP-Signale bQ- 
denX die die Lange des Steuerabschnittdls des ALP durchiaufen. Diese Steuerschnittstelle wird konzeptioneU in 
der Fig. 7 dargestellt, die die Steuerschnittstelle zwischen den RPIC- und ALP-Modulen und die fur jeden 
Pipeline-SteueranschluB (PCP-pipeline control port) bendtigten (mit PCPj in der Figur mariderten) Signale 
zeigt Fiir die gegenwartige Besprechtmg wird ein RSP-Bautetl mit hochstens acht PCP angenommen. Die 
FunktioQ jedes der Pipeline-Steueranschliisse ist in Tabelle 2 zusammengefaBt 
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TabeQe2 

Beispiel eines Satzes Pipefinefunktioiieii 





?CP-Haas 


AzischluSfxizxlctlon 


0 


P5X 


AllgeBsines Plpelinasegment 0 


X 


PSB 


AUgemaiaes Pipelinesegmexi^ 1 


2 




La8ttmdr88Ba*Pip«Iintt8egBiszi& 


3 


psm 


Sehreibadresae-Pipeliiie8e9iB0n& 


4 


PSRD 


Lasedatea^Pipalinesegmen^ 


5 


PSVIS 


Sehrttlbdaten-Pipelinesegmesifc 


S 


psnz 


Sdiraib-PipeLi&eaagmexL^ fur axtezna Datan 


7 


psn 


Iicwo-Pirrl inrgajTTimt £Qz ax^axne Datea 



Die Steucranschlussc PSRA. PSWA. PSRD und PSWD werden zur Implementienmg der koofigurierbaren 
Adrefimodusoperationcn bcnutzt Die Steueranscblflsse PSWX und PSRX cnnogBchea cBe Implcmcntienmg 
von selbststtodigea Pq)elines fOr Datenflbertragungcn liber dea Schaltbus. Die Steueranschltoe PSA und PSB 
baben keinc festgelegtc Funktionsbedeutimg. Es konnea mchr als ein Steue r an-sc hh iB kombiniert werden^ um 
einen logischen SteueranschhiB mit getrenntcn Steueningen fOr tmterschiedlidie Operadonen hmerhalb dieses 
Segments zu biWen. Beispielsweise kann die ALP-Schaltungsimplementierung die Steueranschiiisse PSRA und 
PSWA kombinieren, so dafi dieselbe Schaltung zur Erzeugung von sowohl Schreib- als aucfa Leseadressen 
benutzt winL Die RPZC liefert alle 16 Bit des BefehlsregistCTS an den ALP. Die ALP-Steuerschaltungcn decodie- 
rcn dann das gesamte Wort odcr einen Tdl desselben, um die Operation fOr einen bestimmten Befehl zu 
spezialisieren oder um die Anzahl von durch ein einziges PipeUncsegment durchgefuhrten Funktionen zu 
erweitern. Wie bemerkt, zeigt die Fig. 7 die sechs fOr jeden Ptpeline-SteueranscMuB (PCP^ipeline control port) 

ACTj: AWv^l^Knesegment — wenn durch die ALP-Steucrschaltung fur diesen PipelineanschluB auf LOW 
gesetzt zeigt dieses Signal an, daB der Pipefineanschtufi aktiv ist und auf die andcren RPIC-AnscWuBsteuerun- 
gen rea^eren wild. Wenn dieses Signal auf HI belassen wird, dann ist die AnschluBsteuerschaltung nicht 
verfQgbar und die RPIC erzeugt eine Faile unzuISssiger Befehl, wenn das Programm versucht, diesen Pipehncan- 
schluB anzusteuern. Dies wird zur Fehlersuche in Anwendungsprogrammen benutzt 

FRQj: Funktionsanfordenmg (F^mction Request) an AnschluB j — em Signal mit aktivem LOW zeigt der 

ALP-Steuerschaltung an» dafl das IR- (Instruction Register) Wort gQltig ist und daB die Steuerschaltung mit der 

AusfQhnangdesBefehlsbeginnensoDte. ^ 

FRYj: Funktion berdt (Function ready) fOr AnschhiS j — ein Signal mit aktivem LOW zeigt an. daB die 

ALP-Steuerschaltung den vom FRQj-Signal angeforderten Befehl genommen hat Die RPIC wird keinen weite- 

renBefehlandenALPausgeben.bi5diesesSignalaufLOWgesetztist 

DRQj: Datcnanfordening (Data Request) fflr AnschluB j — ein Signal mit aktivem LOW zeigt an, dafl die RPIC 
Daten fOr eine Schreibfunktion bcreit hat oder Datenausgabe fOr dne Lesefunktion anfordcrt Dies entspncht 
dem Zustand "Daten" in der nonnalen Pipelinebef ehlsausfuhrangsf olge. 

DRYj: Daten bereit (Data Ready) fOr AnschluB j - ein Signal mit aktivem LOW zeigt an, daB die ALP-Steuer- 
schaltung Daten zum Lesen bereit hat oder die Schreibdaten als Engabe angenommen hat FOr Daten, die zum 
ALP abertragen werden, wird die RPIC eine nachfolgende Datenanfordening solange aufhalten, bis dieses 
Signal auf LOW gesetzt ist FOr Daten, die vom ALP fibertragen werden, halt die RPIC die Befehlspipeiine 
solange auf, bis dieses Signal gesetzt ist und erne gifltige ALP-Ausgabe anzeigt 

ARQj: Selbstandige Anfordcrung (Autonomous Request) j — ein Signal mit afcdvem LOW zeigt an, daB die 

ALP-Steuerschaltung eine selbsts^dige Datenilbertragung auf dem zugehorigen Datenbus anfordert 

ARYj: Selbstst3ndig bereit (Autonomous Ready) fur AnschluB j — em Signal mit aktivem LOW von der RPIC 

zur Pipeline-Steuerschaltung; zeigt an, daB die angeforderte Obertragnng abgeschlossen ist 

STATj: Status fflr AnscbluB j — die RPIC benutzt dieses Signal zur Implementierung von bedmgten Sprungbe- 

fchlen, die von dem aktuellen Zustand d« Pipelincsegments abhtogig sind. Die Bedeutung des Zustandssignales 

ist abhangig von der ALP-Schaltung und entspncht einem nOtzlichen Zustand m der Anwendung. 

Beispielsweise kann das CTAT-Signal anzeigen, daB cxteme Daten zur Verfugung stehen, einen Arithmetik- 
Oberlauf usw. Das STAT-Signal fflr einen SteueranschluB kann durch die Konfigurierungsfolge zur Implemen- 
tierung emer asynchronen Unterbrechung ztir RPIC programmiert werden. 

Fflr ailgemeine Pipelmesegmente im ALP eifordert die normale konfiguricrbare ALP-Befehlsausfuhrung die 
Verwendung von sowohl den FRQ/FRY. als auch den DRQ/DRY-Steuenmgen. Daten zu und von fOr konfigu- 
rierbare AdreBmodi benutzten Pipelines crfordem nur die DRQ/DRY-Stcuersignale- SelbststSndige Pipelmes 
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benutzendieARQ/ARY-Signale. 

Die Fig. S zeigt eia Anwendungs-RpeUnesegment, das eine Addier /Akkumulierfunktion durchfuhrt Diese 
Pipeline weist cine einzelne Stufe auf, so dafi die Pipelinehinktion in einem einzelnen Taktzykius durchgefuhrt 
wird Das Segment benutzt zwei PCP, einen f Qr Datenemgabe und einen fOr Datenausgabe. Die Leitungen ACTO 
und ACn werdea auf LOW gesetzt, um anzuzeigen, daB <Ke PCP alctiv sind Die Funktion ist stets fur beide 
AnschlQsse bereit, so daB die Leitungen FRYO und FRYl ebenfaBs auf LOW gesetzt werden. Gleichermafien 
steht das Pipelinesegment stets zum Addieren eines neuen Wertes und zur Ausgabe eines Wertes zur Verf ugung, 
so daB die Signale DRYO und DRYl ebenf alls auf LOW gesetzt werden. Jedesmal wenn ein Befehl ^aden ALP" 
ausgefQhrt wird, wird das DRQO-Signal abgetastet, um anzuzeigen, daB neue Daten verfugbar sind Dieses 
Signal wird dann zur Freigabe des Pipelinetaktes fiir die Pipeline-Registerspaite benutzt Die RPIOEnheit 
enthait Konfigurationsregisterdie die Fahigkeit jedes pipeline-Stcueranschlusses anzeigen. Die Steuerbit fur 
jeden PCP sind aus Tabelle 3 ersichtlich: 

TabeUe3 

RPIC-Steuerregisterbit fur PCP-Steuerung 





Bedeutung 




Aktive Pipelixiest^euerung' fur* dxeaen AoschXuS; dies 
is^ ^'g^* rednndazLte Aazedge, daS fur d±eaen 

RPZC erforder^, dafi di.esas Ei.^ gasetz^ 1st, sewle 
das ACT-Slgsal sxar Fceigaba dar Plpellnaaktlon. 


i+1 


T&iterbrachimgs£relgaba - Das Statnsslgnal fur 
dlasen ftTinrhlM^ Ist eln naterbreciumgsslgnal alt 
aX^vem ZtOH. Dieses Signal veranXafifcr daS die RSZC 
die aJctuelle Prograamausfuhruzig aahalt und eln alt 
der TDaterbrechungsDUBimer fiir dlesezi Annchluft 
've^uxadenes unterbrednrngsdlenstprograjma ausfiiiirfc. 
Die PlpaXlzKesteuazschaltung auS die TSkiter- 
brechmigsanforderunig als ReaJctlaa auf eine 
p^f g:»^i«^"><-mT<g- xintor VeTwendung der Steuer- 
signals TRQ/Fiar losehen. 




Typ des Plpellnesegnen^ : 

0 zelgt eln befehlssyxiehxanlslertes Pipeline* 
segment an. 

1 selgt an, da& dies eln selbststandlges 
Plpellnesegaenfe 1st* 


3*3 


Giiltlg-Zustand - xelg^ an, da& die PCP-Status- 
leltung als gultlger Statuszustand fur bedlngte 
Bef eble angesteuert wird* 



Die Operation von sdbststandigen Pipelines ist von dem PBA-Datenbus abhsLngig, der von der durch die 
AnschluBnummer definiertcn Kpeline benutzt wird Ein selbststandiger AnscfaluB kann mit anderen AnschlQssen 
kombiniert werden, umeiae komplexe Kpeiinesegmentsteuerschnittstellezu erstellen. 

Die Tabelle 4 zeigt eine beispielhafte Menge von selbststindigen Obertragungen fOr jeden SteueranschluB. 
Die selbststandigen Pipelines PSWX und PSRX konnen zur Verkettung von Pipelines von einem RSP-Bauele- 
ment zu dnem anderen benutzt werden. Die selbststandigen Pipelines PSRD und PSWD werden normalerweise 
fiir Preprozessor- und Postprozessor-Datenhandhabung for Berechnungen imtcr Befehlssteuerung im PDP 
benutzt Die Opcrationen werden unter Verwendong der durch Befehl eingeleiteten Steuersignale DRQ und 
DRY for die zugehdrige Pipeline synchronisiert Die selbststandigen Obertragungen PSA und PSB werden 
typischerweise fOr Sensordateneingabe und Betatigungsgliedsteuerung benutzt, die hochratige Datenflbertra- 
gungen erfordenv die im Bezug auf die aktuelle ProgrammausfOhnmgsaufgabe als "Hintergrund-'Akdvitat 
durchgefiihrt werden k5nnen. Beispielsweise wird ein Datenblockinden MPM eingelescn, wShrend ein vorheri- 
ger Block durch das Programm verarbeitet wird Die Konzepte 'Verzweigen* und "verbinden* der parallelen 
Verarbeitung werden zur Synchronisierung der selbststandigen und Programmausfiihrungsaufgaben benutzt 
Die selbststandigen PipeUncs PSRA und PSWA werden zur Implemendenmg des Aquivalents von '^peicherdi- 
rektzugriffs-tDMA — direct memory access)Obertragungen Ober den Schaltbus benutzt 
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BCP-Name 



9SX 



FSB 



Tabcne4 

Sclbststandige Pipdine-Datenubertragungen 

Selbststfindige fibertragnnj 

lAllgemeiaes Pipeliacsegment: 0; B/X-Schreib- 
Pipalineaktiott voa KPH su rekoiiflgtirierf>aren 
Biagabe-ZAufigabeleitungea Cwie z.B- der X- 
Oder B-Bus) . Der RA-Bub def laiert die Adresse 
£Qr die -Datea. ART wird graaefertr wem die 
Datea verfii^ar sind imd ARQwird fallea- 
gelafisen, weim die Daten att f genoBmen gind 

AUgemeines Pipelircsegment B/A-Iiese-Pipe- 
liaeaJctioa tou eiaea rekonf iguriexbarea Sin- 
gabe^/Ansgabelma (wie beispielsweisc den A- 
Oder B-Bua) snsk HEK. Der WA-Bus defiaiert die 



?SRA 



Adresee 
geaeer^r 
siad. 

Iieaeadreft 



Speiehera de 
die O&tc 



Da&ea. AST wird 



gesefariebea 



wo^e 



.Pipeliaesegaaat? ARQ fOr dieaea 



AMchluS leitefe eiae DateaiSbertraguag 
sua Sehaltbtts eia. ART wird geaetxt* 
die fibertragoag abgesdiloasc 



P5HA 



die teertraguag 



Sehreibadreasea-Pipeliaesogmeaty ARQ 
diesea Aaschluft leifcet eiae DafeeaSbertraguag 
vosa Sebaltbua sur MPH-ScAreibadre&ateile eia, 
ART vird LO geaetst. 
abgeacbXosaea isfc- 

Iiesedatea-Pipeliaesegmeat 7 
lie£er^ die Adreaae fur eiae 
^oa. ART wird W geaetxt 



AX«P ver£u^ar siad 



der RA*AdreSbua 
BPU-*Xieseoperar 
die Da^ea soa 
Die A£P*Steaaz8ehaltaag 



das ARQ- 



jk2i£orderuags8igaal freigebear 



die Datea aof geac 



siad. 



PSWD 



Schreibedatea-Pipeliaesegmeat 



s der WA-Adrefibua 



Ue£ert die Adresae 



fux^ eiae HPH-Sehreib- 



operatioa. ART wird auf tO gesetrt 



Datea vom AU aufgeae 
AW-Steaerschaltuag mni 
sigaal freigebea, wean 
siad* 



wordfi 



die 

siad* Die 



das ARQ*Aa£orderuaga* 



die Dat 



axi£gem 



10 



15 



20 



30 



35 



40 



45 



50 



PSHZ 



0b er tr aguag voa Datea 



ART aeigt u 

aufgeacmzLea siad* 



daft die Da^ea 



Sehaltbus 



PSRX 



Xceaea 



cteraer Datea 



Sehaltbus 



Pipe- 



lixiesegmeat» ART 



Dabea 



TB7 



wird auf IiO gesetzt, weaa 
ALP verfu^ar siad. Die A1.P- 



55 



60 



SteuersebaXtaag aoxS 



das ARQ-Aaforduagssigaal 



€reigeben# 



die Datea aa£geaoxn&ea 



siad. 



Die Schaltbussteueningen fOr die selbststandigen Cbertragungen. «He den TBT ^^'^^TJl^'J^L*;;^ 
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ticverarbeitungsfahigkeiten des PDP und den Eingabe-ZAusgabeubertragungen zu synchronisieren. Fur diesen 
Zweck werden acht Hauptbefehle benutzt, einer fOr jeden Pipeline-Steueranschlufi- Von der ALP-Steuerschal- 
tung kdnnen zusatzliche Befehlsregister-{IR-)Bit decodiert werden. urn eine groBe Menge von anwendungsab- 
hangigen Bef ehlen zu erstellen. Die direkten Bef ehle fur diesen Zweck sind in der TabeUe 5 fOr die Beispielsmen- 
ge von Pipellne-Datenwegen dargestellt 

Datenubertragung zwischcn dem PDP und ALP werden stets unter Verwcndung der konfigurierbaren AdreB- 
modenfihigkeit synchronisiert. Der PFS-Befehl erlaubt einer zusammenhangenden Menge von Pipeline-FIip- 
flopwerten in eine Speicherstelle eingclesen zu werden. Die Lese-Zeilen-/Spaltenadresse in der Anordnung ist 
im RPIC-KonfigurationsadreBr^ister enthalten, das durch einen IConfigurationssteuerbefehl besetzt werden 
kann. 

TabelieS 
Beispielbafte Pipeline-Steuerbefehle 



onscode 


Parameter 


Bef ehlsfunlctxoxi 


PCj 

• 


4 - B i t - Fnak t i on 


Pipeline- Steuenmg fur AaseliluS 
leitet eine von seciLzehn# ala 
fgijTchyj fST'T'^^ ^ Punktionen ein» 


PPS 


MPK* Aor es s e 


wert in Speicher 


PRA 


MPM*Adres3e 


Obertragen Daten von MPH zum KLB 
mit SD-Bns, RA-Segmenti 


PWA 


lflP£l*Adresse 


Ubertragren Daten von ALP ziua MPM 
mit ^-BiiSr WA-Segment 


PRD 


MPH-Adresse 


Ubertrasfen Daten von HPK zum AIiP 
mit RD-Bns 


PWD 


MPM-Adresse 


Ubertragen Daten von ALP zixca MF2i 
mit ra3*Bns 


PWZ 




Ubertragen ALP -Daten zuza TBT mit 
"WX-Bus 






Ubertragen TBT -Daten ztm ALP mit 
RX-Bus 



Detaiikonzepte der ALP-Anordnung 

Die Kemzeilenanordnung des ALP ist rwar symmetrisch, aber die Pipeline-Busstruktur ist zur Implementie- 
rung von mehrstufigen Pipdine-Datenwegen optimiert Vertikale Takt- und Rucksetzleitungen enndglichen 
Steuerung von Rpelinestuf en mit verringerter Verlustleistung unter Verwendung eines Taktfreigabeschemas 
(eine Spalten-Takt- oder Rucksetzleitung wird nur dann abgefragt, wcnn das Spalten-Taktfreigabe- oder Ruck- 
setzfreigabesignal afctiv istX Eine Auslegung der Kemzellen und der Gesamtanordnung, die zur Verwendung in 
der RSP-Architektur geeignet ist. ist die schon erwahnte CLAy-Familie konfigurierbarer Logikanordnungsbau- 
stdne, die von Natk>nal Semiconductor Corporation in Santa Clara, Kalifomien, erzeugt wirdL FOr die Zwecke 
der vorliegenden Erfindung konnen auch andere konfigurierbare Logikmittel mit der erforderlichen Funktiona- 
litit (bzw. mit der Fahigkeit, dafOr modifiziert zu werden) benutzt werden. 

In der RSP-Architektur werden die globalen Takt und getastetenTaktxnodi der CLAy-Anordnung bewahrt, so 
daB der ALP zur Steuerung von extemen Sensor-ZBetatigungsvorrichtungen benutzt werden kann. Das Schema 
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mit freigegebenem TaJid RQcksetzen ist der bcvonugte Aiisatz ^^^^^^^^'^J^^^f;^^^^^ 
Pioelinfc Die PBA-Lehimgen laufen rechtwinkfig zu denTaktleitungen und ermo^chen direkten Zugnff anf die 
Pijeline-Busmittel der mteraen RSP-Speicher(MPM), des Schaltbuskopplers CTBT) und des Pipeline-Datenpro- 

'^S?fI?9 ist die detafflierte SchnittsteQe fOr eine ALP-KernzeUe 200 dargesteflt Im nonnalen Betrieb 
Uef em die Leitungen "A" und "B" den SignalfluB des nachsten Nachbam zwischen den KenaefloL Jede Kemzel- 
le 200 kann auf ihren fin der Rgnr mit Ln. I* Ls und Lw bezddmeten) vier Seiten nut emem oder zwa lokalen 
Bussegmenten verbunden sein. Konfigurationsdaten fOr eine KenaeOe werdea aus den vier Bonfigurafaonsda- 
tenlei^gen auf der -Nord'^eite (den Cdn-Ldtungen) und den vier Konfigurationsleitungen auf der "Sud -Seite 
(den CDs-Leitungen) ausgelesea Dies ergibt acht Bit von Konfigurationsdaten zu cmer Kwiizefle m (ffliem 
Schritt Tede Kemzefle wird durch UND-Vertaapfung der vertikalen CSMcolnmn sdwt low)Leitung und der 
horizontalen RS^row select)Leitung als x/y-SteUe der Anordnung znm Laden des niedngwwtigen Bytes der 
Konfigurationter die ZeUe adresriert. Das hochwertige Byte der JConfiguration wff^ 

CSE-(colunm select liigh)Leitung und der RS-Leitung gesetzt Jede Spalte von KerazeDen bedient aj* emer 
gemeiTOamenTakt-(aJC.) mid Rfl<toetz-(RST-)Uitung, die, wie im nachsten 

SdialtungenobenunduntenanderAnordnunggesteuertwird rv-.- c<,i.,ih.«» Jet 

Fte. 10 zeigt eine beispieihafte Sdialtnng zur Implementierung emer ALP-KemzeBe. Duse Schaltang ist 
fun^onsmaSig der ClAy-KemzeBe gleichwertig. Die Schaltungslogik besteht ans zwei A^schnitten: (1) emer 
Konfigurationsdatenschaltung 2DZ die die ZeUenfunktion und Bngangsverbmdongen defimert und (2) emer 
FunktionsschaItung201.diediedurehdieKonfiguiationsdatendefimmeOperatiOT 

Dk KonfiguraSnslogikfQr eineKeiTBenebestehtaus einem 16-Bit-Register(D-Speicher203 undF-Speicher 
204) und einer Konfigurationsdecoderschaltung (DC) 206L Die Ausgabe des KonfigmtionsregisteR und Deco- 
derJ Wden zur AiSSiI der Funfctionssignalwege fOr die duich die KeinzeUe durchzufiihrende Funktion 
benutzt Beispiclsweise werden Konfigurationsregister-bit RO und Rl zur Am^ der I^emgabe Am die 
Zelle aus einer der vier Nachbarzen«x benutzt Die niedrigstwertigcn acht Bit d« KpnfiguraQonsregisters 
werden dadureh geladen. daB zuerst die CSL-und SET-Signale gesetzt werdw. Danach wd das Zc itenauswaW- 
signal (RS) abgetostet. urn die Datenbit zu laden. Die hSchstwertigen acht Bit werien auf ahnhdie Weiw unter 
VCTwiidmig des CSE-Signals anstatt des CSL^ignals geladen. Der aktuefle Konfigurattonsdatrawert^ ach 
dS sS der SignalVcSE bzw. CSL auf LOW von den CD-Uitmigen able«n. Der akpielle Wert des 
KemzeUen-FBpflops liBt sich durch Setzen des Signals FRD lesea Damit kann das Anwendungsprogramm 
einen Pipeline-Registerwert direkt lesen. 

Freigegebene Takt und Rfldcsetddtungen 

Die Implementierung ernes Takt- und ROcksetzfreigabeschemas veremfacht den Auffaau von PipeBneketten, 
verringert die GidBe jeder Pipefinestufe und verringert die Stromaufnahme. da emSpaltaita^ nur dann 
abgetSet wild, wemi das Freigabeslgnal gesetzt ist (nomineU ein Wert mit Aktnr-HI). Dadureh kami wne 
gfobie Kp^Verzegerungsfaigkeit implementiert werden. Ein fffEN genam^s vom ALP e«teuert« 
Signal kann STALL seteen. urn Taktung aUer Spalten. die Takt- und/oder Rtoksetrfreigabe-gesteuert smj zu 
sJi^iiLDas Signal PIPO^ hat keineWirkung auf die Spalten. die globale Takimflcksetz- oder getastete 

Implementierung des Takt/Rucksetzfreigabeschemas erfordert Er«reit«|ung Takt^Qdaete-Spsdtei^te^ 
er^gnale an der oberen und unteren Peripherie der Anordnung. Der Unterschied berteht darm^ jedes 
FBpflopelement einer durch Takt freigegebenen Spalte nur dann geladen wmL wenn dis SpaltentaWragabea- 
gnd von der ALP-Steuerschaltung gesetzt und das PIPEN-Signal gesetzt ist. Alle Fhpflopelemente (FBpflopkon- 
figurationen einer Kemzene)werden auf dieselbeWeisebeeinfluBLDasSpaltennicksetzen kann ahnLcherweise 

durcheinvomALPgesteuertesRflcksetzfreigabesi^alfreigegebrawerden. ns- if «nf!.«,r,t,w 

Die FiB. 1 1 zeigt eine beispieihafte Schaltung fflr die Spaltentakdeitung emer ALP-ZdUe. Die Konfiguratoom- 
signale CCO. CCl und CC2 steuem die Spaltentaktwirkung. Wenn CCO - 1 und CCl = ft dann ist der 
S^tentakt^perrt.WemiOC0-lundCX:i - l- d^nn ist dterSpaltentato die Ausgabe "A^^ 
dEr Spalte (le Konfiguration mit getastetem Takt> Wenn CCO - 0 und CCl - 1. dann w^ d«^ f Pj^J^iJ^^ 
vom sQdUchen Lokalbussegment der oberen Zefle angestcuert. Wenn CCO = 0 und OCl =. 0. <^ f der Takt 
vom globalen Taktsignal abgcleitet und vnrd durch das Konfigurationssteuersignal CC2 und das Steuersignal 
PIPEN gesteuert Wenn CC2 = a dann wird der Spaltentakt mit jedem Taktzyklus vom globalen Takt abgeu- 
stet Wenn CC2 - 1, dann wird der Spaltentakt nur dann durch den globalenTakt abgetastet. wenn die Ausgabe 
-A- der oberen ZeBe gesetzt ist Dies ist der FaB der Pipeline-Taktfreigabe. Der Pipelmetakt kann global durch 
das Signal PIPEN gesperrt werden, wodurch afle PipeBnes in der Anordnongverlangsamt werden. 

Fipeline-Busanordnung 

Mit der Pipefine-Busanordnung (PEA) wird eine Pipeline-Datenwegauslegung zum Zugreifen auf die Spei- 
cheradreB- und Datenleitungen des RSP ohne Erfordemis einer Wegefuhrung von Signalen zur Penphene der 
Anordnung ermogUcht Dies ist ein Schlilssehnerkmal des RSPs zur wirkungsvoDen Verwendung des ALP. Das 
PBA-Konzept basiert auf zwei Beobachtungen der Verwendung von CLAy-Vomchtungavdie den meisten 
SRAM-basierenden FPGA gemeinsam ist: (1) es gibt ein ausgedehntes Vcrdrahtungsnetz (8 Drahte pro Spalte> 
das fur KonHgurationsdatenverteaung benutzt wird und das nicbt benutzt wird, wenn die Anordnung erne 
Anwendung f^irt; und (2) die MODGEN-Funktionsmengc zeigte an, daB afle mtercsstercnden DatenfloBopera- 
toren wirtschafdich unter Verwendung einer DatenfluBstruknir mit "Zweierraster" nnplementiert werden konn- 
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ten. Die Verwendung des PBA eriaubt die Entwicklung von dynamischen Pipeline-Gnmdelementen, die ohne 
Notwendigkeit einer rusatzlichen Wegefflhning an jede Blockstelle im ALP geladen werden kSnnen. Mehrere 
durch MODGEN erstellte Pipclineblocke konnen in unterschiedlicher Reihenfolge in den ALP geladen werden 
iind fiihren nutcliche Funktionen im System mit durch die PBA-Verbindungen vorgesehener "automatischer 
5 globaler Wegefuiirung* unter Verwendung von anstoBenden Nachbarverbindungen durch. Dadurch konnen auf 
Grundlage einer Basisbibliothek erzeugter Funktionen Tausende von Pipelinestrukturen implementiert werden. 
Rekonfigurierbare Logik, die nicht an der rekonfigurierbaren RSP-Pipelinestruktur teilnimmt. benutzt die PBA 
nicht and die PBA behindert auf keineWeise die Verwendung des ALPS fur diesenZweck- • - t • j- 

Die Implementierung der PBA erfordert mehrere Vcrbesserungen der CLAy-Struktur (bzw. die Fahigkeit, die 
10 jeweils benutzte SRAM-basierende FPGA-KemzeUenarchitektur modifizierea zu kdnnen, damit sie wie be- 
schrieben funktioniertXbeeinfluBt aber nicht die Auslegung der Kemzelle: 

— Die Konfigurattensdatenwege mussen rechtwinklig zum Takt-ZRacksetzleitungsnetz liegen. Das erfor- 
dert die Verwendung eines Herstellungsprozesses mit drci Metailschichten. 

15 — Die horizontalen Verstarker-(ER-horizontal repeater)SchaltungeQ werden erwehert, um Lesen und 

Ansteuem einer beliebigen der acht PBA-Leitungen fur jede Zeile in der Anordnung zu enndglichen. Vier 
von den PBA-Leitungen pro Zeile sind Pipeline-Busbit (DR. DW und so weiter). Die anderea vier PBA-Lei- 
tungen pro Zeile haben keine fest zugcorxlnete Bcdeutung in der RSP-Blockschnittstelle und werden als 
globale Busse im ALP benutzt Die ansteuerbaren Leitungen pro Zeile kdnncn durch Tristate-Trciber 

20 angesteuert werden, um eine zweiseitig gerWitete Busstruktur zu implementieren. Man beachte, daB 
PBA-Vfittel nur in der horizontaieii Richtung zur VerfQgung stehen, so daB die Implementierung des 
PBA-Konzepts nur die horizontalen Verstaricerschaltungen beeinfluBt 

— Um die Abtrcnnung von PBA-Treibem wahrend einer Konfigurationsfolge zu ermogfichen, ist erne 
globale CFG-Leitung Qber die gesamte horizontale Verstarkeranordnung verteilL 

25 — Der Imken und/oder rechten Seite der Anordnung sind Schaltungen hinzugefugt, um das Umschalten der 

Leitungen GBA vom Konfigurationsdatenverteilungsmodus in die Pipelinedatenwegeinstellungen zu erlau- 
ben. Zusatzliche Schalter werden dazu benutzt, daB ALP-Ausgangsdaten als eine Thantom-E/A'-Daten- 
queile fur PDP-Bcfehle benutzt werden. Mit dieser Einrichtung kann jeder PDP-Kembefehl auf emen 
Ausgang des ALPs als Adressen- oder Datenclement als Teil der normalen Befehlsausfuhrung zugreifen. 
30 Diese Fahigkeiten werden im Schema der RSP-Architektur als Tconfigurierbare AdreBmodi*, (CAM) be- 



Die Tabelle 6 zeigt eine Beispielliste des PBA-Gebrauchs im ALP. Man beachte, daB ungeradzahlige und 
geradzahiige Zeilen zur Unterstutzung des Zweierrasterkonzepts unterschiedlichen PBA-Gebrauch aufweisen 

35 (auf einanderf olgende Wortbit sind durch eine Zwischenkemzelle getrennt). Man beachte, daB die Rg; 8 emen 
dynamisch vcrschiebbaren Addier/AkkumuUer-Pipelineblodc mit Verwendung der PBA als Datenquelle (DR- 
Bus) und dnes zweiten PBA-Busses (DW) ffOr die PipeUnc-Ausgabe darstellL Dieser Block (und Hundert 
tausende wie dieser) kdnnen ohne NotwentUgkeit zusatzlicher Verdrahtungsmittel an jede horizontale Stelle des 
ALP gelegt werden. Dadurch vereinfacht sich das Problem der Plazierung und WegcfOhrung fur rekonfiguner- 

40 bare Rechensysteme. Der aUgemeine verschiebbare Pipelineblock, der ein TPipelinesegmcnf genannt wird. 
enthalt die Steuerschaitungen» die mit dem DatenfluBoperator verbunden sindL Die Segment-Steuerschaltung 
steht wie schon beschrieben mit der RPIC-Enheit in Wechselwirkung. Fur den Zweck der vorUegenden Bespre- 
Chung wird angenommen. dafi die Steuerschaltungen von sich aus mit dem DatenfluB gebunden sind. Dies wird 
durch Verwendung von zusatzlichen PBA-Mittehi im Steuerteil des ALPs fOr Befehlsdecodierung, Statusant- 

45 wort und Inter-Block-Steuerkommunikation erreicht Zusammen genommen bilden diese Signale die Menge 
von Pipeline-SteueranschlOssen (TCP-Pipeline Control PortsX 
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Tabettee ^ 
Beispielhafte PBA-Bdegun& ALP-Datenwegabschnht 
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Die Vcrteilung derBefehIsregister-(IR.iastnictiott register)Datea uncj PipeIme.SteueranschIuI^(PCP-)Sign^^ 
im Steuerbereicb des ALP basicit, wie tettweise inderTabene 7 gezeigt, auf emem anderen Ansatz. 
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TabeUe7 

Beispielhafte PBA-Belegung» ALP-Steuerabschnitt 
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In dieser Anordnung sind die FRQ-Signale fOr alle PCP in zwei auf einand^olgenden Zeilen enthalten. Die 
FRY-Signale fur alle PCP sind in den nachsten zwei Zeilen enthalten und so weiter. Dieses Muster wiederholt 
sich fur aUe PCP-Steuersignale und die Befehlsregister-Bit. Der gesamte Steuerbereich des ALPs erfordert 16 
Zeilen fur acht PCP-Mengen. Die PBA-Leitungen, die nicht im DatenfluBbereich oder SteuerfluBbereich liegen, 
kdnnen der Verwendung durch andere RSP-*Steuer* und Datensignale zugewiesen werden. 

Kemblockstniktur 

Wie anhand der Kg. 5 besprochen, wird eine zusammenhangende rechtwinklige Anordnung von Kemzellen 
(CC) mit denselben lokaien Busverbindungen als dn Kerablock bezeichnet. Fig, 12 zeigt den allgemeinen Plan 
der Kemblockstnilctur fur cinen Kemblock mit vier horizontalen Spalten und vier vertikalen Zdlen. Jeder 
Kemblock 220 ist unter Verwendung von horizontalen Verstarker-(HR-horizontai repeater) Schaltungen 222 
und vertikalen Verstarker (VR-vertical repeater)-Schaltungen 224 mit Nachbarkembldcken und mit der Hpeli- 
ne-Busanordnung verbunden. Die Verteilung von Konfiguradonsdaten wird durch horizontale VerstSricerschal- 
tungen bewirkt, die die auf die gesamte Anordnung durchiaufenden PBA-Leitungen basierenden CD-Daten 
lesen oder schreiben. Bei einer kleinen ALP-Schaltung kdnnen die PBA-Leitungen direkt fOr die Konfigurations- 
daten benutzt werden. Fig- 13 zeigt die Verbindungen, die einen Teil der Schnittstelle zwischen den Kemzellen 
und Verstarkerschaltongen an den Ecken der vier Kemblddce bilden. 

Fig. 14 zeigt eine beispielhafte Schaltung fOr eine vertikale Verstarkerschaltung 224. Jeder Verstarker emp- 
fangt Konfigurationsdaten von den horizontalen Verstarkerbldcken auf den CD-Leitungen. Jeder vertikale 
Verstarker eriaubt eine befiebige Verbindungskombinadon des lokaien Bussegments oberhalb des Verstarkers 
(LaX des lokaien Bxissegments unterhalb des Verstarkers (Lb), des Express-Bussegments oberhalb des Verstar- 
kers (Ea) und des Express-Bussegments unterhalb des Verstarkers (Eb). Jede Spalte im ALP hat vertikale 
Verstarker links und rechts von der Spalte an jeder Kemblockgrenze. 

Fig. 15 zeigt eine beispielhafte Schaltung einer horizontalen Verstarkerschaltung 222. Jede Zeile im ALP weist 
zwei horizontale Verstarkerschaltimgen an einer iCemblockgrenze auf, eme fur Bussegmente an der Nordseite 
und eine fQr die Bussegmente an der SOdseite. Zusatzlich zu den Schaltungen, die VerbLndung der dstlichen und 
westlichen lokaien und Express-Bussegmente (Le, Lw, Ee und Ew) erlauben, enthalt der horizontale Verstarker 
Schaltungen zum Lesen oder Schreiben eines beliefaigen der vier Pipelinebus-(PB-)Signale zum lokaien Busseg- 
ment an der Ostsette (LeX Die horizontalen Verstarker haben auch die I^gkeit, die Konfigurationsdatenleitun- 
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gen (CD) vom PB anziBteiwrn oder die Konfigurationsdatenleitungen znruck zum PB zu lesen. 

DetaflBerter Daten- nndSteuerfluB im RSP 

En RSP-Programm greift auf die Paranehrerarbeitungs-Zusanimenschaltung*- CTBTOund konfigjmer-bareti 
Lorik^rdnunSttel (ALP) dutch Erweiterungen des Befehlsvorrate d« skalaren Proxessors (PDF) m Die 
DeSon d.^efehlsvorrat«ugriffs auf Bitebene hangt von dem speafischa benutzten skalaren Verarbei- 
tungskern ab. Da aUe skalaren Prozessoren eine auf der Architektur n«:h von Netmann basierende genensche 
S^^tsform aufweisen,gat die gegenwartige Besprechung im angemcmen Krjeden skalaren Prozessor 
Se A^S eines Befehlsvor^tszugriffs faUen in folgende Kategorien: (1) konfigunerbare Adrefimo<J^ (2) i 
FunSuausfQhrungsbefehle. (3) bedingte Sprung-befehie, (4) konfignnerbare Logikunterbrcchungen. (5) di- 
rekteEin-/Aiisgabeund(6)Rekonfigurationsbefehle. 

Etae typische RSP-Implementierung erlaubt Zugriff auf Pipeline-Busanordnungsverbrndungen unter Verwen- 
dune eino- Erweitening des integrierten indirekten Adressieningsmechaiusmus. Diese Erweitenmgen der nor- 
Sfn ASSSShigkeiten sind die konfigurierbaren AdreBmodL Jeder Befehl un skalaren Prt«essor. der i 
"n4 SpSSropSlel ansteuert, kanndie konfigunerbare AdreBmodusfihigkeit benutten. Im RSP-Beispiel 
»ifetessechsm5dichekonfigutierbareAdreBansteueningen: . . j. 

PAlwisen Pipeline^chaltbuseingabe (Pipelined Toggle Bus Input Read^ Dieser AdreBmodus erlaubt die 
direkteAnsteueiunevonSchaltboseingabedatenalsDatenoperand, ... ^ j. , 

PAwiS^pipeline-SchaltbusauTgabe. Dieser AdreBmodus wird nat Befehl«i benutzt. die normalemeise : 
zurstSscliea,en.DieDatenausgabewirdalsAusgab 

PAR-SS Pipeline-Adresse. Der durdi die Ausgabe der LeseadreB-(RA-Read-ddres5)PipeImebusanordnungs- 

leituneendefinierteAdreBwertwirdalsdieSpeicfaeradresserumLcseneincsOiwrandra^ 

pJ?S§5?lS?nR^eBne-Adresse.DerdurchdieAusgabede^ 

sMorSungsleitun^ definierte AdreBwert wird als Adresse einer SpeichersteUe zum Schreiben von Daten 

PiSSSen PipeUae Daten. Die Ausgabe der Lescdaten-(RD-Read Data)Kpdm Ausanor*iunpleitungen 
ab EinSSgSenoperand fOr den Befehl benutzt Dies erlaubt die direkte Verbmdung des konfigurierbaren 
Loeikausgangsmit dem Engang des skalaren Prozessors. . ^ . . . t. v -i^-*-^ 

PDV^^-ben Pipeline Date! Die Ausgabe des skalaren Prozessors wild ab Eingabe zu den Schreibdaten- 
0!S-^^dS) I^elinebusanordnungsleitungen umgeleitet.Dies erlaubt die direkte Obertragung von Daten 
vom skalaren ProzessorzurkonfignrierbarenLogik. . , . i. • tr- i • ^nv.»»^«,n« 

In aDen Rllen wird die RPIC-Schaltung -Wartezustande- einfuhren. wenn bei Einleitung emer Obertragung 
keine Daten von der Quelle zur VerfOgUng stehen. Die konfiguriertaren AdreBmodoserweiterungen werden 
unter Verwendung der Steueisignale-Datenanforderung-an den PipeBnesteuCTansii^ussen nnplementiert. 

SkS^usShnm^befehl^nutzen die Steueisignale TunktionsanfordenmfiT an den Kpelme«eueran- 
scSS?^ to allgemeiSn gibt es f Or jeden PCP einen Funktionsanfordenmgsbef ehL Bei I^P-I«Pl«Sr 
rM*werden der konfigurierbaren Logik vier rusStzHche unbenutzte Befehlsoperationscodebrt benatgesteUt, 
SSfdte IrapfemenSSSS^on bis zu wlverschiedenen von der konfigurierbaren Logik abhangigen Funktionen 

"oie PCP-Zostandsleitungen eriauben die Implementierong von -konfigurierbaren Spronr -Brfehlen. Damit 
konnen in AbhSngigkeit von dem aktueUen Wert von Signalen in der konfigunerbaren Logik alternative 
BefehlsausfOhrungsfolgendurchgefQlirt werden. . . tt «. uu-tA.^^« 

KDnfigurierba4 Unterfjrechungen werden durch Erweitenmg der typschen UnteArechungsabbddun^^ 
bette. so daB sie f Or ieden Pipeline-SteueranschluB eine unteriirechungsstene enthalten, unplementiert Wenn die 
iSrSLg von der koi5iguriert,aren Logik gesetzt ist, hat die RPIC die normale P~Sramma«rfahr^^^^ 
und b^t i^t der AusfQhrung des Unterprogramras an der von emem Wert m der Unterbrechim^abeUe 
defini^ai Adresse. Im normalen Gebrauch fflhrt das Unterprogramm emen FunktionsMiforderungsbefehl aus. 
wodurchdiekonfignrieibareLogikschaltungdasUnterbrechungfflnforda^ ..^^^ 

Eine Architektur fOr eine spezifische Implementienmg kann direkte Ein /Ausgabebrfrfde zur toplcmrane- 
nmg von Dateniibertragungen zwischen dem skalaren Prozessor, dem Sdaltbus und den konfigunerbaren 
Lorikmittein benutzen. In einem typischen Fall werden den Pipelinebusanordnungsleinmgsatten Em-'Ausga- 
be--AnschluB' -Nummem zugewiesen. Diese FShigkeit wird normalerweise beim Schaltbuskoppler benutzt. 
wenn dieses MittelmAtabParaUehrerarbeitungszusammenschaltimg benutzt wird. v j 

Beladen der mit den konfigurierbaren LogikkemzeHen und der konfigunerbar^ Verdrahtong verbundenen 
Konfigurationsregister wird dureh Sonderbefehle durcfagefOhrt Jedes Register wiidab erne Stefle un TCorfigu- 
rationBspeicher»-AdreBraum betrachtet EmBefehldesTyps-^locfcverschiebung- w«rd rum Uden emes g«am- 
ten Pipelinesegments benutzt Als Alternative kann jedes Konfigurationsregister durch erne Einzelbefehlsaus- 
fuhning geSndert werden. Auch sind Befehle zum Lesen von einem oder mehreren Konfigurationsregistem 
vors^hen. Diese Befehle werden zur Implementierung von adaptivcn Algonthmen(be«spieIsweise adapdven 
Fdtem oder zur Anderong einer Pipelinestufe zur DurchfQhnmg einer 'Addier'-Operadon anstatt emer-Subtta- 
hio'-Operation) benutzt Wie bemerict. kann die Quefle von Konfigurationsdaten em chipmtemer Speicher, 
chiDertemerSodcher oder eine Schaltbusdateneingabesein. _ ^ . ■ 

Die Fia. 16 ist dn Blockschaltbild mh dem detailUerten DatenfluB fOr die Hauptbnswege ernes beispielhaften 
RSP-Baadements. Der Lesedaten^RD-read data)Bus hat prei Quellen:(l) M>^°^ (2)^ vom 

Soeicher mit Mehrfachzugriff 128. Die RPIC 122 steuert die Auswahl dieser altemativett Wertem Abhingigkeit 
v?n^^£uS« PipelSebetrieh. GleicfaennaBen kann die Schr^daten-CWD-write date»uene vom AJ^ 
Oder PDP 126 kommen. die extemen S<ireib-{WX-write ertemaI)Daten kannen vom ALP oder dem PDF 
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konuneo, die Leseadresse (RA-read address) kann vom ALP oder der RPIC kommen und die Schreibadresse 
(WA-write address) kann vom ALP oder der RPIC kommen* Zwischen dem Speicher und dem ALP ist ein 
besonders breiter Wortdatenweg fur Konngurationsdaten (CD) vorgesehen. Die AdreBerzeugiuigschaltungen 
in der RPIC haben ihre eigene Verbindung zu den arithmetischea Pipeiinedaten (F) im PDP* GleichermaBen 
konnen die RPIC-AdreBregisterwerte unter Verwendung des Dateaweges AR in den PDP*Berechnungen 
benutzt werden. Die RPIC iiefert die Befehlsregisterinformationen zum ALP und audi die I^pelinesteueran- 
schluB-(PCP-pipeline control port)SignaIe. Wenn als Hauptbussteuerung ein RSP-Bauelement benutzt wird, 
treibt die RPIC-Schaltung den C-Steuerbus, der einen Hngang fur die RSP-Bauelemente darstellt, die als 
untergeordnete Datenverarbeitungselemejate benutzt werden. 

Schaltbus-Ein-ZAusgabeoperationea 

Der Schaltbuskoppler (TBT-Toggle Bus Transceiver) wird als Hauptdateneingang und -ausgang fur ein 
RSP-Bauelement benutzt Wenn mehrere RSP-Bauelemente benutzt werden» um ein SIMD-Parallelverarbei- 
tungssystem zu bilden, implemendert der TBT eine Vtelzahl fortgesdirittener DatenfluBmuster^ die SignalfloB 
mit grofier Bandbreite und parallele Verarbeitungsoperadonen erlauben. Die vom TBT implementierten drd 
Artea von DatenfluB sind foigende: 

Rundsenden — jeder Prozessor kann Daten an alle anderen Prozessoren rundsendeiL Dies wird zur Befehlsver- 
teilung vom Prozessor der Bushauptsteuerung an die untergeordneten Datenverarbeitungselemente und zur 
Datenrundsendung fur die Schritte in einem Algorithmus, wenn jeder Prozessor dieseiben Daten benddgt» 
benutzt. 

Reflexxonen — die Daten voa Prozessor J werden zum Prozessor rait der Nunouner J XOR R ubertragen, wobei 
R der Hammingabstand ist Reflexionen konnen auf Bitebene durchgefOhrt werden^ um mehrdimensionalen 
Speicherzugriff zu unterstutzen, der fOr Btldverarbeitungs- und Bilderzeugungsanwendungenbendtigt wird. 
Rotierungen — die Daten vom Prozessor J werden zum Prozessor mit der Nummer 0 + R) mod N iibertragen. 
Damit kdnnea ringbasierende Algorithmen veranderiicher RotationsgroBe implementiert werden. Rotadonen 
kdnnen auch auf Bitebene durchgefOhrt werden» um Arithmetik- und Bilddatenhaodhabiing mit langen Worten 
zu unterstutzen. 

Jede dieser Operadonen kann in einem dnzigen Taktzykhis durchgefOhrt werdenu Die Rundsendeoperationen 
benutzen einen KombinattonsdatenfluB wie bei einem herkonuniichen Tristate-Bus. Die Reflexions- und Rota- 
donsoperationen benutzen ein zweiphasiges Schema, bei dem die Daten zuerst auf den P-Busleitungen Obertra- 
gen» auf den Q-Leitungen eii^>fangen und in einem Speicherregister gespeichert und danach auf den P- oder 
Q-Leituogen weiter iibertragen werden. Zusatzlich zu den gnmdiegenden DatenfluBoperatioxten fOhrt der 
Schaltbus eine Anzahl von Overheadubertragungen durch, die Assoziativanoninungsverarbeitung erlauben. In 
der Tabelle 8 sind die Gnindarten der Schaltbus-DatenObertragung zosammengefafit 
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TabelleS 
Schaltbus-DatennuBoperadonen 
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Der Leerlauf.Buszyklus "NOP* (no operation) crlaubt der Bmhauptsteaenmg die Syncjut>nmenmg einer 
Datenverarbeitungsanordnung. Einc mil -besctzT bezeichnete Buslcitung mit off cncm KoUcktor ist als Ted des 
SchalAussteucrvekton mk aHen Prozessorcn vcrbunden. Dieses Signal weist einen Werty zurBtu^ 
rung aut weim cincr der Prozessorcn gegenwSrtig nicht zar Teilnalime an cmcm SchaltbuszyW^creit ist 
AusfDhnmg des NOP-Buszyklus halt <fie Bushauptsteuerungsveraifcdtong solange auf, bis aUe Ptozessoren 
bereit sind. weiterzuarbeitcn. Der NOP-Zyklus kann von den Datenprozessoren zur Synchronisierung von 
intcmcnOperationcnbenutetwerden. ^- *tt*^ i_ 

Mit der Konfigurationsdatennmdsendtnig -CFG" kann eine Bushauptsteuerung die ALP-Schaltungen ernes 
Oder mehrerer Datenprozessoren konfigurieren. Auf die CFG-Konfigurationsbuszyklen reagiercn nnr gegen- 
wSrdgaktive Prozessorcn nachuntenstehcnder Definition. 

Der DatcnnindsendedatenfluB "DAT* erfaubt der Bushauptsteuerung das Rundsenden ernes Datenwortes an 
ane Datenprozessoren in einer Anordnung. Die Datenprozessoren lesen diese Dalen ™ter Veiwendung von 
Befehlen TN* odcr durch selbstSndigen Pipefinezugrift Der Funktionsrundscndebuszyklus "FCT criaubt der 
Bushauptsteuerung die Obcrtragung eines Befehls an aDe Datenprozessoren. Der Befehl kann eme Datenhmd- 
habungsfunktion (wie beispiclsweise ADD zum Akkumulator) oder eine FhiBsteuerungsoperaton (wie bei- 
spielsweise Springen zu einer unterprogrammsteae) sein. Wcnn mehr als ein Wort crforderOch ist konnen 
mehrercFCr-Busryklenbenutztwerdcn. ^ • . i - ^ n j 

Der AuswahWatenfluB "SEL" eriaubt dem Prozessor der Bussteuerung die Auswahl emer Teflmwige der 
Datenprozessoren fOr nachfolgcnde Operationen Fur 1 bis 16 Prozessorcn entspncht jedes Datenbit m der 
Rundsendung dem "Akrivitats^-Zustand des entsprechenden Prozessors. Beispiebweise sctzt das Bit 0 der Daten 
den aktivcn Zustand fur den Prozessor 0 bzw. setzt ihn zurQck. Wenn es mehr als 16 Prozessorcn gibteriaubt der 
Abstandswert ''G* die Auswahl einer Teilmenge von 16 Prozessorcn, die eine Gruppennummcr aufweiseii, die 
dem Wert von "G* entspncht Wenn der Aktivititszustand gesetzt ist reagiert ein Prozessor auf die Funkdons- 
rundsendebuszvklcn "FCT. Wenn der Aktivitatszustand V ist fuhrt ein Prozessor bei Aosfuhnmg ernes 
Funfctionsbusz^us keinc Operation durch. Der Gruppenzustands (GSTAT-Group Status) Zyklus sendet der 
Bushauptsteuenmg ein 16.Bit-Wort zurttck, wobei jedes Bit cine Zusammenfassung emer Tcilmenp toii 16 
Prozessorcn ist. Em Bit ist einc '1" wenn dner der Prozessorcn in der Gruppe ein Zustandsbit von 1 aufweisL 
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Der Lesezustandsbuszyklus "STAT* wird zum Lesea eines Zusamraenfassmigszustandswortes aus einer Gnippe 
von Datenprozessoren benutzt Jedes Bit in dem von der Bushauptsteuening empfangenen Wort entspncht 
einem zusammenfassenden Zustandsbit in jedem Prozessor. Die Bedeutung des Zustandsbits ist vom Algoath- 
raus abhangig. Wenn es mehr als 16 Prozessoren gibt, wahlt der Parameter "G* die Gruppe aus, die auf die 
Statusanforderung anspricht Die Statusantwort wird typischerweise in Verbindung mit dem Auswahlbuszyklus 
fiir Operationen des Algorithmus der Assozxativanordnung benutzt 

Fig. 17 ist ein Blockschaltbild einer beispielhaften Schaltimg des Schaltbuskopplere 124 fur ein RSP-Bauele- 
ment Die interne DatenqueUe des RSP fur die Datenausgabe sind entweder der Bus WXa von der ALP-Enheit 
Oder die wxpDaten von der PDP-Einheit Vom Schaitbus empfangene Datea werdcn auf dem Bus RX verteilt. 

Bei einer Rundsendeoperation werden die WX-Daten nach Umwandlung in der Schaltbusaustauschschaltung 
260 aber die Ansteuerschaltung 270 ubertragen. Die Oaten werden dann von den P-Leitungen uber P-Speicher 
262 und RX-Multiplexer 264 zur Verteilung auf dem RX-Bus empfangen. Fiir Reflexions- und Rotationsopera- 
tion werden die Oaten nach Umwandlung zuerst iiber den P-Treiber 266 angesteuert Die Daten werden dann un 
Q-Speicher 268 empfangen und gespeichert Bei der rweiten Taktphase werden die Q-Speicherdaten dann uber 
die Umwandlung zur Obertragung zuriick: durch P-Treiber 266 oder Q-Treiber 270 gef uhrt und dann absdilie- 
Bend vom Q-Speicher 268 oder P-Speicber 262 aus auf den RX-Multiplexer 264 aufgeschaltet Die P- und 
Q-Speicher fungieren als Master-Slave-Flipflop zum Speichem der Empfangsdaten fur Refleaonen und Rota- 
tionen. 

Der Schaltbuskoppler 124 wird durch den C-Vcktor gesteuert, der folgende Informadonen lief ert: 

— Schaltbusphase; 

— P- und Q-Trdberfreigaben; 

* Aktueiler DatenfluBtyp; Rundsendea Reflexion^ Rotation usw^ und 

— Abstand: Rundsendequelle. Reflexionsabstand oder Rotationsabstand 

Der Schaltbuskoppler 124 erlaubt einen unterschiedlichen DatenfluB mit jeder Phase eines Buszyklus. Bei- 
spielsweise kSnnen Daten auf Bitebene mit der ersten Phase rotiert und dann mit der zweiten Phase rcflekttert 

Bei SIND-Systemen erzeugt der Prozessor der Bushauptsteuening die Komponenten des C-Vektors fur alle 
Datenprozessoren. Der C-Vcktor wird dann in <tie untergeordneten Prozessoren eingegcben. Beim Einschalten 
fungiert der Schaitbus nur als Rundsendebus. bis alle RSP-Bauelemente erstkonfiguricrt sind 

Detailiierte Beschreibung der RPIC 

Die voUstandige Schaltung fOr die rekonfiguricrbare Kpeline-Befehlssteuerung(RPIC-Recx>nfigurable PipeU- 
ne Instruction controller) ist von der Implementierung des Pipeline-Datenprozessors (POP) abhangig. Die 
Schnittstelle zwischen dem RPIC-Block und dem ALP andert sich nur mit der in der Rpeline-Busanordnung 
enthaltenen Anzahl von Oatenwegen und der Anzahl von in den Pipcline-SteueranschlQssen implementicrtcn 
SignaleiL Die Schnittstelle zwischen dem RPIC-Block und dem Kemprozessor, dem Speicher und den ParaUel- 
verarbeitungs-Zusammenschaltf estfunktionen andert sich nach den genauen Erfordemissen der zur Implemen- 
tierung dieser Festfunkdonsblocke gewahlten Schaltungen. ^ . , J- 

Wenn der ALP mit einem Kemprozessor verbunden ist, dann bendtigt der RPIOBlock Steuersignale, die 
folgendes anzeigen: (1) wann ein neuer Befehl von einem Programmspeicher geholt wird (2) wann vom 
Prozessor eingeleitete Ein- und Ausgabezykien auszufuhren sind und (3) wann Daten zu und von emem 
Festfunktionsdatenspeicherblock zu lesen bzw. schreiben sind Auch erwartet die RPIOSchaltung, daB sic 
Sof twareunterbrechungsfunktionen im Kemprozessor einleiten kann- Diese generischen Rhigkeiteh stehen bei 
alien Prozessoren zur VerfQgung» andem sich aber in den spezifischen Einzelheiten der Signale und in der Zeit 

der Signale. . , 

Wenn der ALP mit einem Festfunktions-Parallelverarbeitungszusammenschaltblock verbunden bt, dann 
benStigt der RPIC-Block Schnittstellensteuersignale fur folgendes: (1) zum Bestinunen, wann eine Rekonfigura- 
tion von einer extemen Vorrichtung angefordert wird (2) Besdramen. wann extern eingeleitete Befehle von der 
RPIC auszufOhren and (3) Bestimmen, wann exteme Daten dem ALP verfugbar gemacht worden smd und (4) 
Bestimmen, wann die extemen Vorrichtungen zur Aufnahme von Daten vom ALP bercit sind 

Wenn der ALP mit einem Festfunktionsspeichermittel verbunden ist. dann benotigt die RPCI Schnittstellen- 
steuersignale zum (1) Bestimmen. wann der exteme Speicher zum Schreiben zur Verfugung steht und (2) 
Bestimmeii,wann vom ALP angeforderte Daten zur Vcrwendung bereitstehen. 

Die folgende Besprechung beschreibt ein minimales RPlC-Tdlsystem, wobei ein generischer POP mit Beto- 
nung auf der Schnittstelle zu den Pipelme-SteueranschlQssen (PCP-pipeline control ports) angenommen wird 

Fig. 18 ist ein BlockschaltbUd mit den Grundbauelementen einer RPIC-Schaltung 122. Die RPIC enthalt zwei 
Grundregister fur den ProgrammsteuerfhiB. Befehlsregister (IR-instmction register) 280 halt den aktuellen 
auszuf uhrenden Befehl und ProgrammzShler (PC-program counter) 282 halt die Adresse des nidisten auszufuh- 
renden Befehls. IR 280 kann entweder vom lokalen Speicher unter Verwendung der Adresse im PC 282 oder 
vom EmpfangsanschluB des Schaltbusses aus beladcn werden. Der Schaltbuseingang wird zum Empfang der 
Befehle in einem Oatenprozessor von einem Bushauptsteuerungsprozessor unter Verwendung des Funlmons- 
Schaltbuszyklus "FCT benutet Die exteme Befehlseingabe fungiert als "weiche Untcrbrechung*. Das heiBt, es 
wirxi jede lauf ende Programmausfuhnmg wahrend der Ausfuhrung des extemen Befehls (der normalerweise eui 
Abrufbefehl fur ein Unterbrechungsdicnstprogramm ist) angehalten. Die AusfQhrung eines Unterbrechungs- 
rflckspnmgbefehls bewirkt die Wiederaufnahme der Ausfuhrung durch die RPIC an der SteUe un Programm. an 
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dcr die Funktionseingaflraattfaad- , . . , . * j * j 

Der Programmzahlcr 282 steucrt den FluB dcs RSP-Programms durch die Abfolge voa Adresscn atif dem 
ProgrammadreBbus (PA). FQr die meisten BefeUe erhoht sich der PC-Wert cnit demselbea TaktzyHus, nut dem 
das ni beladen wird Zur direktm Verandenmg des aktueDcn PC-Wertes wcrden Sprung- und Abrufbefehlc 

^^AdSsen zum Speichcrlesen (auf dem LescadreBbus RA) kommcn von vier mdgUchen QueHeru (i) dem 
Speicherlesebus (RDl der als das zweite Wort eines Befehls eine direkte Adrcsse im Programmspeicher ist, (2) 
dem Schaltbus als zweites Wort einer Scdialtbusfanktionseingabe, (3) dem ALP-Pipelinebus RAa als Reaktion 
auf eine selbstSndige Kpefineanforderung (ARQ) oder von einer durch Befehl emgeleiteten konfigunertaren 
AdreBmodusoperation und (4) dem Prozessor indirekter Adressen (lAP-indirect address processor) 284. 
ScbrdbadresscnfiirdenSpeicheraufdemWAhabenglcichartigeQuenwerte. « . • i 

Der Proiessor indirekter Adressen 284 enthait PDP-abhSngige AdreBregister- und AdreBberechnungsmittel 
zur ErsteBung von Adressen auf Basis von AuswahlbitfiirindirektcnAdreBmodusimBefehL . . 

Befehlsdecodierschaltung (IDC-Instniction Decode C3rcuit) 286 bestimmt die Art der Adr^enmgfur jjden 
Befehl und wahh die AdreBqueDe fur RA und WA aus. Die Konfigurationsregister (CR) 288 m der RPIC 
enthalten Daten, die den Kontert der RSP-Operationen definiereiu Beispielsweise wcrden CR-Bits zur Ken^ 
zeichnung der Prozessorgebrauchsart (Bushauptsteuerungsprozessor oder Datcnprozessor) benutzt Das CR 
enthait auch die Rpeline-BusanordnungskonfigurationsstcueTsignale wie schon beschneben. 

Die Pipeline-Vergabeschaltung (PARB) 290 koordiniert den Betrieb zwischen den ALP-Kpelmebussen, der 
Befehlsabnifoipenne und den PDP-DatenverarbeitungspipelinesL Das bcnutzte Schema basiert auf der her- 
kdmmlichen Philosophic vcrriegelter PipelineverzSgenmg: wenn cine Pipeline Daten von emer zweiten Pipetoe 
bendtigt. wird die erstc Kpclme solange aufgehalten fihr Taktsignal solange unterdrflcktX bis die Daten von d 
angeforderten Pipelme zur VcrfQgung stchen. Die Software und ALP-Schaltungen sind dafur verantwortiich, 
ordnungsgemiBen PipcIineHuB sicherrusteneiv indem sie nach Bedarf NOP-Befehle bzw. Taktwartezyklen 

^^^cSzelnen ist die Implementierung der PARB von dcr PDP-Struktur und von der Art der benutzten 
Technik abhingig. Die folgenden Absatze beschreiboi die Funktionsweise der PARB-Schaltung m Zosammen- 
hang mit den Grundoperationen, an denen die konfigurierbaren Kpclineschaltungen des ALP beteQigt smd. 

Pipelme-Freigabeoperation - vom Programm cingeleitete und selbstindige DatenQbertragungen zwisdien 
dem ALP und den andercn RSP-Prozessoren unter Vcrwendung dcr Pipeline-Busanordnung erfordem, daB die 
Pipeline durch folgendes frcigegeben wird: (1) das Konfiguratwnsre^er aktiv (CRAj) und (2) das Aktivsignal 

^^Rg?iTkt^^ustandsdiagramm, das den Funktionsflufl zur Erzeugung eines Pipelinefreigabcsignals fflr das 
eingeieitete Programm und selbstSndige Dateniibertragungsoperationen zeigt Die zur Implementierung des 
gezeigtcn Zustandsdiagramms bendtigten Schaltungcn konnen leicht von dncm Fachmann hergesteUt werden. 
Beim Einschaken und nach einem harten Rucksetzen wcrden aUe Rpelines in den Zustand "gesperrjr getneben. 
Damit werden die Kpclinefreigabesignale (PENj) auf LOW gezwungen. wodurch die andM«i Operationen 
Msperrt werden. Die Pipeline bleibt solange gcsperrt, wie eine Konfigurationsfolge ausgefShrt wffd (Signal 
CFG ist HO und das Steucrbit Konfigurationsregistcraktiv LOW ist. Wenn CRAj HI ist undkeme Konfi^ira- 
tioasfolge ausgefOhrt wird, ubcrpruft die Schaltung das Signal ACTj vom ALP im Zustand -tJberpriifei^Wenn 
ACTj auf LOW gesetzt ist, tritt die Schaltung in den Zustand "Frcigegeben" ein und erzeugt emen Wert HI beun 
Signal PENj fOr die Pipeline. Eine I^peline wird dann gesperrt sein, wenn eine andere Konfigurationsfolge 
ausgefOhrt wird oder cine Operation durchgefuhrt wird, die das Signal ACOausldsL . . a a • 

FluB der Funktionsanfordenmgsoperation — Fig. 20 ist ein Zustandsdiagramm, das den BetnebsfluB zcigt. 
wenn der Befehlsdecoder bestimmt, daB der aktucUe Befehl Ausfiihrung einer Pipeiinefunktion im ALP erfor- 
dert Wenn die angeforderte Pipeline nicht im Konfigurationsre^cr frcigegeben ist oder das Aktmignal 
(ACTj) fOr die Pipeline nicht gesetzt ist wird cine Fchlenmterbrechung cingeleitet Damit wuxi die FeWcrsuche 
m Algoritiunen veremfacht; die ALP-Pipelineschaltungen benutzcn. Anderafalls gibt dcr RPIC-Bcfchlsdccoder 
das Signal Trogrammhinktionsanfordenmg" (PFRQft an den Programmfunktionszustandsautomaten fur die 
Rpcline aus. Werai das Signal *Funktion bcreif nicht gesetzt ist (das Signal FRYj ist HI), wird m cinen Zustand 
bwchaftigt cingcgangen. wobci das Signal Tunktion anfordcnf (FRQj) auf LOW gesetzt ist Damit wird alien 
nachfolgenden Funktionsanforderungen an diese Pipeline em Aufhaltezustand aufgezwungen. Die SchaUung 
verbleibt im Zustand 'lieschaftigtr, bis das Signal FRYj auf LOW gesetzt wfad oder die Pipeline gesperrt wird 

Solange das Signal FRYj gesetzt bleibt kann mit jedem TaktzyWus enx neuer Pipeline-Funktionsbrfehl 
ausgefOhrt werden. Dies ermdgficht die Implementierung hochratiger Pipelines, die in der Lage sind, mit jedem 
TaktzyHus eine neue Operation zu beginncn. Es erlaubt auch die Implementierung von Pipelines, die mchr^ 
einen Taktzyklus fOr jede Funktionsanfordcrung erfordem. Beispielsweise wird cine Pipeline, die fOr jede 
Funktionseinleitung zwei Taktzyklen erfordert das Signal FRYj einen Taktzyklus lang nach Erkeimung des 
Signals FRQi auf HI anhebcn. Die PARB setzt dann die Funktionsanfordcrung (FRQj) fur die ausgewaUte 
Kpelinc und wartet auf das Setzen dcs Zustands Funktion bereit (FRY]) von der ALP-Schaltung. Wenn im 
Bef ehlsstrom kein Pipcline-Funktionsbefehl anh§ngig ist Bst die PARB die Funktionsanf ordenmg aus. 

FluB der Datenanforderungsoperation — Das RSP-Programm kann Bef ehle ausfGhren, die explizit <fie Daten- 
ubertragung von einer Verarbeitungseinheit (Speichcr, PDP oder Sdialtbus) oder von einer ALP-Kpelme zu 
einer andercn Verarbeitungseinheit vereinlassen. Diese Befehle bedienen sich der T)atenanforderungs- Syor 
chronisations-schaltung. Auch kann dcr Befehlsdecoder in der RPIC einen Datenanforderungszyklus fOr die 
konfigurierbaren AdrcBmodi einleiten. die cfic Vcrwendung einer ALP-PipcBncausgabe fur die Lese- oder 
Sdu-eibadresse eriauben. Konfiguricrbarc AdreBmodi leiten audi eine Datenanforderung zur Ubcrtragung von 
Daten vom PDP zu einer ALP-Pipelinc oder vom ALP zum PDP ein. Alle diese DatcnfluBoperationen bedienen 
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sich der Steuersignale-datenanforderung(DRQj) und Daten bereit (DRYj) am PipelincsteueranschluB. 

Die Fig- 21 ist ein Zustandsdiagramm. das den FtinkdonsfluB der Programmdatenaafordeningsoperation 
zeigt Wie bei alien vom Programm eingcleiteten Operationen muB die angeforderte Pipeline freigcgeben 
werden. sonst wird eine Fehlerunterbrechung ausgefuhrt Die Datenanfordenuig (DRQj) wird von der ^^^r 
Schaltimg fur den ALP gesetrt wenn der Befehlsdecoder das Signal Programmdatenanforderung" (PDRQj) 
ausgibt Wenn die Pipeline nicht fur die Datenubertragung bereit ist, tritt der Zustandsautomat in den Zustand 
"beschaftigt* ein und wartet darauf, daB das Signal ''Daten bereit* (DRYj) auf LOW gesetzt wird. Im Zustand 
besdiaftigt wird eine nachfolgende Programmdatenanforderung die BefehlsausfQhrungspipeline so lange auf- 
halterv bis das Signal DRYj auf LOW geseUt wird. Mit jedem Taktzyklus kann so lange eine neue Datenanforde- 
rung gesetrt werden, wie die ALP-Pipelineschaltung in der Lage ist, DatenQbertragung mit der hochsten 
Geschwindigkeit aufrechtzuerhalten. Ansonsten kann die ALP-Steuerschaltung "Wartezustande" einfugen, in- 
dem sie DRYj ffir die Dauer dieser notwencUgen AnzaW von Taktzyklen auf HI setzt Die RPIC fQgt Wartezu- 
stande in den Vcwgang ein, wenn die Quellen- bzw. Ziebcrarbeitungseinheit zusatzliche Zeit fiir die Datenuber- 
tragung erfordert J 1. J* 

FIuB der SUtuszustandsoperation - Die ALP-Pipeline-Zustandssignale (STATj) werden von den bedingtcn 
Sprungbef ehlen des RSP gelesen. die die ALP-P^)eline als eine Spningbedingung ansprechen. Im Braig auf die 
anderen vom Programm eingelciteten Operationen wird eine Fehlerunterbrechung erzeugt, wenn die Pipeline 
nicht frdgegeben ist Die RPIC Uest einfach die Statusleitung ab und fuhrt den Sprung durch, wenn der Zustand 
erfOUt ist (Sprung mit Status V oder Sprung mit Status "1"^ Man beachte, daB es fur diese Funktion keinen 
Anforderungs/Bestatigungs-Austausch gibt. Der Algorithmus muS AufhaltezyUen cinfugen oder cmen ALP- 
Funkdonsbef ehl ausf Qhren, der darauf wartet daB der Zustand vor Ausfuhrung des bedingtenSpnings gfiltig ist, 
um sicherzustellen, daB der Zustand bd AusfQhrung des bedingten Sprunges gfiltig ist Die meisten ALP-PipeU- 
nes halten das Signal STATj zu alien Zeiten auf einem gfiltigen Wert . a t i> w 

SelbstancUge Pipelinefunktion — Wenn sie in den Konfigurationsregistem freigegeben ist, kann ^"^f ^^"J*" 
peline eine selbst5ndige Datenubertragung zwischen der ALP-Pipeline-Busanordnung und dem Schaltbus oder 
den RSP-Speichermitteln anfordem. Diese Obertragungen erfordem keine Ausfuhrung cines RSP-Befehls, raid 
aber normalerweise durch Funktionsanforderung und Datenanforderungsbefeblsausfuhnmg nut der Pro- 
grammausfQhrung synchronisiert Eine selbstandige Operation be<Hent sich der Signale selbstandige Anforde- 
rung (ARQj) und sdbstandiges Bereit (ARYj) an emem Pipeline-^teuerans^ 

Die Rg. 22 ist ein Zustandsdiagraram, das den FunktionsfluB der seIbstan<Ugen Anfordeningsfolgeoperation 
zeigt Die Pipeline muB im Konfigurationsregister fiir selbstandige Handlung freigcgeben seia wenn eine 
selbstandige Anforderung (ARQj) erkannt werden solL Wenn dn Anf orderungssignal gesetrt ist und die Pipelme 
nicht freigegeben ist wird kein Fehlerunterbrechungssignal erzeugt 

Zur eingehenderen Eriautcrung der sclbstandigen Pipelineoperation wird in der folgenden Be^rechung erne 
selbstandige Anfordening an das RSP-Speichermittel angenommen. Die Adresse fOr diese AnfOTderung wird 
von der RA-Pipeline im ALPgelicfert Es wird angenommen. daB die Adresse bei Setzen der ^f^^^^r^fj^^ 
ist Die PRB-Schaltung setzt eine Les eanf orderung an den Speicher und setzt das Signal bereit (ARYj) auf LOW, 
wenn die Daten verfOgbar sind (Signal PRYk wird von der Speichereinheit auf LOW gesetzt> Wenn die Daten 
von der DRm-Pipeline angenommen worden sind, entf emt die ALP-Schaltung die Anforderung (ARQj) und die 
PARE reagiert mit der Entferaung des Signals bereit (ARYj): ^ . • j • 

FQr jeden Zyklus, in dem das Anforderungssignal gesetrt ist und das Signal bereit gcsetzt is^ wird eine 
DatenObertragung durchgefuhrt Damit kdnnen schneUe Pipelines mit jedem TafctzjWus eine Spejs*craj«teue- 
ning untemehmen. Wenn dne Folge asynchroner Anf orderungen die Speicheranf orderungen fOr den PDF oder 
Schaltbus start, wird der ALP-Pipeline nur die Halfte der verfugbaren Speicherzyklen ertdlt Dies tntt nur bei 
gleichzeitigenLeseoperationenundgleichzeitigenSchrdboperaticnenein. 

Eine selbstindige Schreiboperation zum RSP-Speicher wird durch eine fihnliche Folge durchgefuhrt in 
diesem FaU muB die Schreibadresse am WAa-Kpelineausgang gQltig sein und <tie vom WDa-Bus zu schreiben- 
den Daten mflssen vpr Stellen der Anforderung giUtig sein. Die RPIC setzt ARYj, wenn die Daten fur die 
Speicherschreiboperation angenommen worden sind. . «r . ^ ^1.-. t?- 

Selbstandige Obertragungen zur und vom Sdialtbuskoppler werden auf ahnkche Weise durchgeffihrt £ine 
Leseanforderung wird aufhaltcn, bb der Bushauptsteucrungsprozessor einenTaktbuszyklus vollendct hat Eme 
Schreibanforderung wird aufhalten, bis der Zyklus abgcschlossen ist, hat aber auch die Egenschaf^ daB zum 
anfordemden Prozessor Qbertragene Daten (beispidsweise bei Benutzung eines Rotierungszykl\is) aus dem 
RX-KpeUneeingang ausgelesen werden kSnnen, wenn das Signal ARYj gesetrt ist So kann em normaler 
Schreibbus-Schreib-ZLesezyklus mit einer einzigen selbstSndigen Anforderung durchgefuhrt werden. 

Konzepte der Konfigurationsfolge 

Der ALP in einem RSP-Bauelement kann Konfigurationsdaten von einer von drei Quellen empfangen: (I) 
exteme Daten (auf dem RX-Bus vom Schaltbuskoppler), die ihren Ursprung in einem Bushauptsteuerungs-RSP- 
Bauelement haben, (2) exteme Daten von einem Spwcher oder Systembus oder (3) von dem Speicher mit 
Mehrfachzugriff- Beim Enschalten zeigt ein EingabeanschluB an. daB ein RSP unter Vcrwendung von externen 
Daten zu konfigurieren ist oder daB der RSP cinen externen Speicher adrcssieren soli, um die Konfigurationsda- 
ten zu erhalten. Konfiguration des ALPs aus dem chipintemen Speicher bictet einen schnellen Mechamsmus mr 
[ rekonfiguricrbare Pipelineanderungen. crfordert aber. daB der Speicher zuerst von einer externen QueUe 

beladenwird. . - ti 

Die allgemdne Konfigurationsdatei fOr die RSP-Bauelemente enthalt gr5Benveranderhche Datensatze fOr 

sechs verschiedene Mengen rekonfigurierbarer Speicher und Register: 
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lCenizeUcnanordnim^|fc:A-core ceU array) - Erlaubt Rekonfigui^ftig eines beliebigen rechteckigen 
Nachbarblocks dcr ALP-Anordnung. Jede ZcHe erfordert cin Wort (zwd Byte) KonfiguratioiisdateiL Fur die 
RSP-FamiKe wird die ALP-Aaordnung ak Bneares AbbQd ahnlidi do- fur Bitmap-Graphiken benutzten Art 
adressiert Das heiBt, es wird angenommen. daB die Anordnung eine GrSBe voa Nc Spalten (Taktlcitungsrich- 
tung) und Nr Zeacn (Datenwegrichtung) besitzt. Die Adrese fur die ZeUe an Stelle x (Spalte) und y (Zeile) ist 
dann gegeben durch: A x + y^Nr. Eine gegebcne Adresse I6st sfch durch die folgenden Formeln m x- und 
y.Koordinaten auf : x « A mod Nr und y - A div Nr. Zwecks VertragEchkcit mit der CLAy-Architektur steigt 
die x-KoonCnate von links nach rechts an und die y-fCoordinate steigt von unten nach oben an, so daB Adresse 0 
die unterc linke Ecke des Blocks darstellL Mit diescm Schema kannen Konfigurationsblocke unabhangig von 
den Anordnungsabmessungen sein. Ein Kemzenanordnungskonfigurationsblock wird dann diffdi die Sebdres- 
se (unter linke Ecke des Blocks in der ZielanordnungX 'die ein Einzelwort ist die Blockbreite (em Byte) und die 
Blockfaohe (ein Byte) definiert. , , , ^» ^ t* i 

Lokalbusanordnung (LB A-Iocal bus array) - Der ALP behilt die grobe Blockstrtiktur der CLAy-Bauelemen- 
te fur lokale und Exprcss-Buskonfiguration. Die Konfiguradon fur die horizontalen und vertikalen Verstarker- 
schaltungen (HR und VR - horizontal repeater, vertical repeater) fur den Lokalbus wird wie bei den KemzeUen 

^^StoSgurierbare E/A-AnschiQsse (RIO? Reconfigurable I/O Pins) - die Peripherie der ALP-Anordnung 
CTthalt vom Familienmitglied abhangigcn Zugang zu rekonfigurierbaren E/A-AnschlOssen sowie Zugang zu 
RSP-interaen Steuersignalen. Damit kann die Peripherie der Anordnung unter Verwendung von "Vierer- Vierer- 
"Signalen auf Nachbaranordnungen crweitert werden. In dem RSP-Fall hat jeder E/A-AnschluB Zugang zu 
RSP-intemen Signalen wie auchdie gewShnBche Bedeuttmg rckonfigurierbarer AnschluBstellea Die Adressie- 
rung von Periphericzellen bt notwendigerwcise von der Vorrichtung abhangig. Es gibt mehrere Unterschiede im 

VerhaltenderRIOPimALP. . . . ^ ^ ^ ^ * * w 

RpeBne-Busanordnung (PBA-Pipeline Bus Array) - Dies ist der bedeutendste Zusatz zur CLAy-Architekmr 
und wilrde den meisten konfigurierbaren Logikauslegungen hinzugcfugt werden mOssen. Die RSP-Bauelemente 
enthalten eine Anzahl von Pipeline-Bussen rum Zugreifen auf den Daten-MPM, TBT und auf PDP-Daten imd 
RPIC-Steuersignale. Die PBA ist eine Signahncnge mit doppelter Verwendung, die nur m der honzontalcn 
Ridrtung flieBt \^^hrend ciner Konfigurationsfolge wird die PBA zur Zufuhrung von Konfiguradonsdaten zu 
den Kemzellen, Hr, VR und RIOP benutzL Wenn cfie interne Anordnung nicht gerade konfigunert wird, weist 
jede Anordnungszdle adit Ldtungen auf, die direkl unter Verwendung der HR mit lokaien Bussegmenten 
verbindbar sind Fiir jede ZeUe weisen vier der PBA-Leitungen fest zugeordnete Verbindungen mit RSP-Pipeh- 
nebussen auf und vier der PBA-Leitungen werden als globale Verbindungsldtungen innerhalb des ALP^ be- 
nutzL Die PBA-Leitungen mit fest zugeordneter Bedeutung weisen Bitzuweisungen auf, die fOr Datenwegblocke 
mit Raster 2 versetzt sind. Ein globales Konfigurationssignal CFG wird durchweg fiber ER verteih, um lokale 
Bustreiberzu PBA-Leitungen wahrendeiner Konfigurationsfolge abzutrcnnen. 

RSP-Konfigurationsregister (RSPCR-RSP Configuration Registers) - Der RSP enthalt 32 Byte von SRAM, 
die der statischen Konfiguration der RSP-Umgebung zugeordnet sind. Diese Information enthalt Bit fur Prozes- 
sorge5chwindigkeit,Schaltbusgeschwindigkeit,Startprogrammadresse und so welter. 

Speicher mit Mehrfachzugriff (MPM-Mukiple Port Memory) - Der Inhalt des intemen Programmspeichers 
des RSPs isf als Tcfl einer Konfigurationsfolge konfiguricrbar. Damit kann ein Erstprogramm (^ootstrap-La- 
der*)beimEinschalten Oder nach einemWieder-Uriadengeladen werden. ^ 

Die verschicdenen Arten von Konfigurationsdatensitzen werden, wie in Tabefle 9 darg^eUt, durch em 
Huffman-Codierschema unterschieden. 

Tabelle9 



KonfigurationsadreBBste 



i AdresBbita 


Konfigurationsotlbtol ^\ 


OOee eeee eeee eeee 


KarxLzellenadrasaa 


Olbb bbbb bbbb bbbb 


^kalbusanordmsi? 


XOOO lili iiii i±i± 


(Pari9herlaanordmm9) 


1 1001 SS99 9999 9999 


61dbaIbuaanordaim9 (flofaxs 
benStigt) 




S^enerra9lstartoxi£i9urabi.oiL 


1 1011 


(resarvler^) 


1 llaa &aaa aaaa aaaa 


PsoQTanDap a xcbsf 
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Mit diesem Schema wird die direkte Abbildung fttr eine CCA von bis zu 16 J84 ZeQen (128ma! 128) unterstuUL 
GrdSere RSP-Teile wQrden 32- oder 64-Bitworte aufweisen. womit grfiBere Anordnungeo unterstuttt wcrden. 
Jeder RSP-Tcil uaterstQtzt die inTabelle 10 gezeigten Befehle zur Rekonfiguration. 

Der Befehl BCON muB vor Ausfuhrung der Befehle DYCON, LDCON und STCON ausgefOhrt werdeiu 
BOON sem dea ALP-Taktmodus auf die durch die leute Konfiguration gesetztea Werte und Icgt das Signal 
CFG an die ER-Verbindungen zur PEA an. DYCON fuhrt eine Einzelblockkonfiguration durch. Die Zieladresse, 
Breiten- und Hoheninformationen werden als die erstea zwei Worte des Konfigurationsblocks im Speicher 
definiert Die Befehle LDCON und STCON erlauben das Lesen und Schrciben von Enzelzellenkonfigurations- 
daten zur Unterstutzung von Konfigurations-Taerechnungen" auf Zcllenebene Die "Adressen* fur LDCON und 
STCON befinden sich im KonfigurationsadreBraum, wahrend die "Adresse" Kir REBOOT und DYCON sich im 
Ptogrammspeicheradrefiraum befindet 

TabeUeiO 
RSP-Konfigurationsbefehle 



Befeia 




FunSctloxi 




RBBOOT 


op X Adrease 


Ausf^hfen Wleder* 
trrladeColge unde BegiriTien 
]Co&£i9ura^cns-dAtei- 
Stro&folge alt: A&fan? bel 1 
Speicheradresae 


BCON 


op 


Beglnnen KoafdLgurlesuag: 
PBA abrexmeix l^oxtflgu- 
r abloas - 1 aJctsna ds 




op X AdxMa^ 


Tcil-Rckoxif Iguriercxx Block 
aUB Speleher&dresse 


ZiDCOH 


op X Adresse 


Iiaden Xonfignrati on swort 
aus Kopflgurations"' 
adre&raum la AWiTTmilator 




STCON 


op X Ads esse 


Sefczen Kon£lgura^oasvort; 
axis ASdcunoilaterxeg-isber 




SCON 

- 


op 


Enden Kon£xgurleru&gs 
Freigeben AU PBA, Takte 
und B/A 





Konfiguradonsdateistrvktur 

Eine Konfigurationsdatei besteht aus einem Kept einer Menge von Konfigurationsbldcken und einem Nach- 
spann. Die allgemelne Stniktur gleicht den CLAy-Bitstromen mit folgenden Unterschieden: 

— R5P-Vorrichtungen lassen sich nur im Parailehnodus konfigurieren und es besteht daher keine Notwen- 
di^eit for Bitsynchronisiening. Eine RSP-Vorrichtung kann anf angs aus extemen Daten (exteraer Taktmo- 
dus) Oder durch interne Adressenerzeugiing (intemer Taktmodus) konfiguriert werden; 

— Das erste Byte einer Konfigurationsdatei besteht aus einem Vier-Bit-'^orspann-'^uster (nomineli 101 1) 
und einem Vier-Bit-Konfiguradonsdateisteuerf ekL Das LSB des Steuerf eldes definiert die Konfigurations- 
queUspeicherbreite (0 adit Bit breiter Speicher und 1 16-Bit-breiter Speicher). Die ubrigen drei Bit 
definieren die Speichergcschwindigkcit (Anzahi von intemen Taktzyklen pro extemer Speicheransteue- 
rung). Damit kann ein RSP sich selbst von einer Vielzahl von extemen ROM- oder FLASE-Speichervorrich- 
tungen aus konfigurieren. Im extemen Konflgurationsmodus definieren die Steuerbit die Quelldatenbrdte; 

— Das rweite Byte einer Konfigurationsdatei (das hochwertige Byte des ersten Wortes bei einer 16-Bit- 
Breite) erweitert die Konfigurationsdateisteuer^gnale. Dieses Byte enthalt Taktst^ierinformationen; 

— Das zweite Wort einer Konfigurationsdatei zdgt die Anzahi von Konfigurationsblockdatensatzen an, die 
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folgeiL Es bestcht keine Notwendigkeit fQr eine "TConfigurationsspnmgadresse', da diese Funktton leicht 
durchdasakmeneaktivePn^ranmidurchgcfQhrtwird^ . 
- Jeder Konfigurationsblodc bestcht aus eincm Zwei-Wort-Kopt gcfolgt von den Konfigurationsdaten 
(stets ein Mehrfachcs von zwei Byte). Das entc Kopfwort ist die Zielkonfigurationsadresse- Das mederwer- 
tigc Byte des zweken Wortes ist die Blockbreite und das hochw^tige Byte des zweiten Wortes ist die 

-iSe^Konfigurationsdatei cndet mh dnem Nadispannbyte, das dasselbc wie das bci den (XAy-Vorrich- 
tungen bcnutzte ist Es gibt kein Konrept fOr 'TCaskade" Wenn in eincm System mehrere RSP-Teile (oder 
ein RSP mit mehreren OAy-Vomchtungen) benutzt werdea dann kann ein Hanpt-RSP andere Vomch- 
tungoi unter RSP-Programmsteucnmg konfiguriereiL 

In der Tabelle 11 ist die RSP-Konfigurationsblockstniktur rusammengefaBt wahrend in der TabcUe 12 die 
RSP-Konfigurationsdateistnifctur zusammengefaBt ist 

TabeUell 

Konfigurationsblockdatensatzstruktur 



10 



15 



Wort 


Fozinat: 


Bedeutung 1 


0 


W 


ZieDconfigurafcxozisadresse 1 


1 




Hoheabyte, Brexbenbyte 


2 


W 


H * L Datenworte 
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Tabcflell 
Konfigiirationsdateidatensatzstniktur 
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Wort 


Format: 


Bedeutnm? 


• 


H, Cr,c] 


Vorspanuwor^: Nlederwex^ges 
Byte enthalt Vorspaumsnister 
t-in*^ WortgroSenblb. Hoherwer* | 
tiiges . Byte eathalt 1 
Konf iguratlons & t euerslgnale 


1 


W 


Jl^zizahl VOX! KonflguratiozLS* 
blSckeu 




Blocke 


Kottfiguratioasblockdatexi- 
satze 


B letztes 


W 


MJLCESPAlilHwort 
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Erteme Konfigtiration bedient sich stets der Konfigurationsdateidatensattstniktur. Jeder D YCON-Bef ehl zur 
intemen Konfiguration steuert nur dncn einzigen Block an. Konfigurationssteuersignale fflr einen DYCON-Be- 
fehl werden durch die RSPCR-Registerbit definiert. die durch AusfOhrung von STCON-Befehlcn ge§ndert 60 
werdenkdnnen. 

Mehrfache RSP-KonBgurationen 

Wie erwahnt, konnen mehrere RSP-Vorrichtungen miteinander unter Verwendung der Schahbusvwbin- S5 
dimgsardiitektur verbundcn werden» um die Implemeatiening eincr Anzahi von Arten eines Paraflehrerarbei. 
tungssystems zu eriauben. Die allgemeinste Struktur ist die in Fig. IB dargesteUte. Wie in der vorhcngen 
Besprechung dieser Figur bemerkt, wird ein als Prozessor "Pn^ bezeichneter Prozessor als Bushauptstcuenmgs- 
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prozessor fur eiae Gruppe von N Verarbeitungselementen, die als Prozessoren To* bis TN-n-i" bezeichaet 
werden, benutzt Bei der gegenwartigen RSP-Implemenderung ist der Schaltbus auf N ^ 256 begrenzt Jeder 
Schaitbuskoppler besitzt zwei, T-'Bus und *Q-'^us genaimte, zweiscitig gerichtete M-Bit-Koppler. Jeder 
Schaltbuszykius besteht aus der Obertragung der Datcnausgabe Qber die Leitungen oder "Q* und dem 
Empf ang der Daten auf den altemativen Leitungen "CT bzw. T*. Der geraeinsame Schaltbus-Steuerbus "CT wird 
2ur Definition der Art der Bustransaktioa fOr alle Prozessoren benutzt 

Der Schaltbus bietet eine *Breitwort'-F5higkeit, die bei yorherigen Parallelverarbeitimgssystemen nicht 
verfQgbar ist FQr M-Bit-Worte pro RSP-Knotea und N Knoten konnen die MAN Bit auf dem Schaltbus durch 
den Compiler als einziges Breitwort angesehen werdea Zu beispielhaften Operationen, die an diesem Breitwort 
in einem Buszyklus durchgefuhrt werden konnen, gehort "Rotieren um k*, wobei k ^ M-N, und die Bitumkehr 
des vollstandigen Breitwortes. Diese Fahigkeit hat zahlreiche Anwendungen. einschliefllich einer Aridimetik mit 
sehr hoher Prazisiorv die Implementierung von Fahigkeiten einer Arithmetik des finiten Feldes und die eff ektive 
Losung einer Anzahl von Problemen, die bei Logikoptimienmg und -analyse auftreten. 

Die in der Figur aufgefuhrte "Schaltbusverdrahtung* basiert auf einem Muster der "Idealen Mischung*. Fur 
den Fall von M-Bit-Worten und N = M Prozessoren wird die Verdrahtungsregel wie folgt definiert. Pkj stelle 
die j-te Bitleitung des P-Busses am Prozessor k dar und Q stelle gleicbermaBcn die i-te Bitleitung des Q-Busses 
an dem mit 1 numerierten Prozessor dar. Dann ist die Verdrahtung dnf ach Pkj ^ Q. Das heiflt, man verbinde die 
j-te Leitung des P-Busses am Prozessor k mit der k-ten Leitung des Q-Busses am Prozessor j. Diese Regel wird 
auf die Verwendung vonTeilgruppen von Signalleitungen fOr Systemc erweitert, bei denen M ^ N. 

Wie bei der Besprechung des Schaltbusses erwahnt unterstutzt der Schaltbus drei Gnmdarten von DatenfhiS- 
mustem und Kombinationen dieser Muster. Das 'Ttundsende'-DatenfluBmuster erlaubt einem beliebigen Pro- 
zessor die Obertragung von Daten an alle anderen Prozessoren in einem einzigen Buszyklus. Dieses FluBmuster 
gleicht der bei herkommlichen Tristate-Busstrukturen angetroffenen Fahigkeit. Der RundsendedatenfluB wird 
zur Verteilung von Konfigurationsdaten in einem RSP-Bundel benutzt Der PN-Prozessor benutzt auch das 
Rundsenden zur Einleitung von spezifischer Verarbcitung in den Datenprozessoren durch Direktausfiihrung 
von Befehien. Im MIND-Berechnungsstil leiten diese Befehle im wesentlichen die AusfQhrung von funktionsma- 
Big abhangigen Teilprogrammen ein. Im SIND-Berechnungsstil sind die Befehle typischerweise Tunkdonsan- 
f ordenjngs-*TBef ehle fur die konfigurierbare Logikanordnung. 

Der Schaltbus unterstutzt auch allgemeine •Datcnrotations-'DatenfluBmuster auf Bitebene und Wortebene. 
Diese werden sowohl fOr SIND- als auch MIMD-Parallelverarbeitungsansatze fur Prozessor-Prozessor-Daten- 
fluB benutzt Die RotationsdatenfluBmuster konnen als eine Erweiterung der TUng-* Zusammenschaltung 
betrachtet werden, die erf olgreich in vorherigen Systemen benutzt worden ist 

Die dritte Hauptart von DatenfluB uber den Schaltbus wird 'Datenreflcktion" genannt Dies ist das allgemein- 
ste undleistungsfahigste DatenfluBmuster und erlaubt die Implementierung sehr kompUxer DatcnfluBoperatio- 
nen wie beispielsweise den im nachsten Abschnitt beschriebenen multklimensionalen SpcicherzugrifL Refle- 
xionsdatenfluB basiert auf dem in den meisten Logikauslegungs- und Codiertheoric-buchem beschriebenen 
Prinzip des 'Hamming-Abstands*. Beispielsweise kdnnen Daten zwischen zwei Prozessoren j und k durch 
Einstellen des Schaltbusrcflesdonsabstandes auf d = j ® k. wobei das bitwcise exklusive ODER der Bit der 
Ganzzahlwerte von j und k ist, in einem Buszyklus ausgetauscht werden. Der auf diese Weise berechnete 
Abstand zwischen Prozessoren wird der Hamming-Abstand genannt Die auf dem Hamming-Abstand basieren- 
den DatenfluBmuster sind ein integraler Aspekt komplexer Algorithmen wie beispielsweise der schnellen 
Fourier-Transformation (FFT-Fast Fourier-TransformX die fur die beabsichtigten Anwendungen der RSP-Ar- 
chitektur von grundlegender Bedeutung sind. 

Wie bemerkt. sind in derTabelle 8 (Schaltbus-DatenfluBoperationen) die DatenfluBoperadonen zusammenge- 
f afit, die durch den PN-Prozessor eingeleitet werden konnen. Die Spalten *iauscode" und 'Abstand* sind Felder 
in dem vom PN-Prozessor ausgegebenen Vektor XT. Jeder RSP-Prozessor bestimmt die fur einen bestimmten 
Buszyklus durchzufuhrende Operation unter Verwendung des Busoodewertes. Zusatzlich zu den DatenfluBope- 
radonen Rundsenden, Rotadon und Reflexion werden Buszyklen fiir Konfigurationsdaten, Befehlsausfuhrung 
und •Assoziativteilmengen-"Verarbeitung durchgefOhrt Die Assoziatiwerarbeitungsoperationen erlauben der 
PN-Verarbeitung, eine Teihnenge der Pi-Prozessoren auszuwahlen, die auf nachfolgende Buszyklen reagieren 
wird. Dies wird beispielsweise zur Auswahl einer SIND-Funktionstdlmenge von Prozessoren fOr emen spezifi- 
schen Algorithmus, der Teil einer im allgemcinen funktionsmaBig partitionierten MIMD-Systemstruktur ist, 
benutzt. 

Wenn die Anzahl der Prozessoren N grdBcr als die Anzahl von Bit M in den Worten ist, benutzt der 
PN-Prozessor die Buszyklustypen "Gruppcnauswahl* zur Auswahl von Teilmengen der Prozessoren zur Akti- 
viening. Bei diesen grSBeren Systemen wird fur jeden Buszyklus ein zusatzlicher Taktzyklus benotigt, um voile 
TBreitwort-'DatenfluBmuster zu vervollstandigen. 

Anwendungsbeispiele 

Die ALP-Mittel im RSP konnen auf drei unterschiedliche Weisen benutzt werden: 
E/A-Pipefine. Schnittstelle zu extemen Sensoren und Betatigungsgliedem unter Verwendung der konfigurierba- 
ren E/A-Anschlusse (wie beispielsweise die Datenmengen A und B). Damit verringert sich die Anzahl extemer 
Bauelemente, die zur Implementierung eines Systems bendtigt werden. In dieser Rolle wird der ALP als 
herkdmmliche FPGA-Struktur benutzt, um mit den Steuersignalen der exteraen Vorrichtungen auf flexible 
Weise in Wechselwirkung zu treten. Das PDP-Programm greift dann auf die extemen Daten unter Verwendung 
von Pipelinebuslese- und -schreibbefehlen zu. Der ALP kann Vor- und Nachverarbeitungsfunkdonen, wie 
beispielsweise BitzusammenfOgung und -neuzusammenfilgung bieten. 
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Proeramnuerte Pipel^Der ALP wiid dureh Durchfiihning von e Jfcien Overheadfnnktionen ffir die 

sSbstanSge Pipeline. Die gesamte Berechnung oder ein GroBteil derselben wuj im ALP durchgefflhrt. der 
ffirektohneProerammsteuerungaufdieSpeicher-undSdialtbus-E/A-Mittelzugreif^ 

*^e7^?Sa auf ve^chiedene Weisen kombiniert werdea ^ init muumalen e«em«i Bauete^^^ 

teneSehSieL«stungbere5tzustenen.IndenfolgendeQAbschm 

auf bekannte Berechnungen anwenden lassen. 

Glehkommaverarbeitung 

Wcnn der PDP-Prozessor im RSP keine Gleitkomma-Arithmetikmhigkeit besitzt. kann der ALP dim* 
oShrSg der Exponentenberechnuogen. Ausnahmerusmderkennimg uadMaod^^^ 
SSeuTe einer Menge voa Gleitkomma-Uaterprogrammcn um einen Faktor 5 bwurtrt wwden. Die PDP- 
SS^^en^^ DurchfQhnmg der eigentlichen Multiplizier-. Addier- and Subtiahieroperationen 
SSSt?£iege^^gV?^SwirdLmdern^^ 

nS bSutzt Je^GleitkoLnawort besteht aus zwei 16-Bh-Worten. Das mederwertige Wort W 
5ed«wertigen 16 Bit der Mantisse dar. Die nieder-wertlgen 7 Bit dcs h5her«rertigeii Wort« (M^ smd 
K^^^n Bit der Mantisse. das (die) h6chstwertip(n) Bit des ^^r^^^%'l^^J^^J^^, 
und die Sen Bit imhaherwertigea Wort (E^stetten den Exponentrnd^;^^^^ 

Bit- in do- Matisse angenommen. FQr aUe Werte auBer p nraB an das ME-Feld em Enzelbit nut einem Wert 
n"angehangtwenien.um einen richtigen24-Bit-Mantissenwert2UW^ten. n-SfV^mma 
¥lz.24 ist ein BIockschald>Ud fiJr eine ALF-Schaitnng zur DurchfOhnmg von beschleunigten GleiO^T^- 
OD^tionen. Der allgemeinc Plan fur die ALP-Beschleunigerschaltung besteht dann. zwei Worte. die einen 
dfeSS^wSt dSstellen. unter Verwendung des DRm-Rpelinebussw am dem Spei Jer ausades^ D e 
AuJI^SSng besttmmt dann. ob mit dem Wert irgendwelche Ausnahmebedingungen verbuaden smd. FQr die 
J^^^lSSLgwSd eine verringerte Menge von A,^^ 
Singsanwendungen typisch sind. Diese Bedihgungen sind inTabeUe 13 zusanunengefaBt 

Tabenel3 

lEEE-Glwtkomma-Ausnalimen fOr DSP 



to 



IS 



20 



30 



E-Wert 


M-Wert 


Name 


Bedingun? 


0 


0 


Null 


Werfc 1st: 0 . 


0 


0 


kN 


TJiigultigrer Wert 


>0, <255 


beliebi? 


OK 


6ew5hnliclier Wert 


255 


beliebi? 




TtogQltiger Wert 
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Wenn Daten aus dem Spcicber zur ALP-Schaltung ausgelesen werden. werien &e ^^^eregBter (VL imd 
VH) mit dem Eingangswert beladen. Die SchaItangen'M=(rund-E=<rbereclmen dann d^e^^^ 
QiifflW^ertes. me Werteschaltung(VC) faBt dann diese Bedingungenzasammenundeswmlfalb der ZusU^ 
wSe N^m^) iSannt ^das DRm-Pipeline-Statusbit (das Signal DRm^STAT) gesetzt Damit kann 
STsKS^SgSti^Etagigsdatenzust^de erkennen. Nach AbschloB emer Gleitkomma^penition 
St c£St?o^S^-5SckSiulatorre^^^^ 

werden dann fOr den Ergebniswert erkannt und bei Erkennung eincs ungfllttgenErgebnisses wird das SteCrf)tt. 
li^ DWta STAT geStzt Der sich ergebende ungQltige Zustand wird ebenf alls gesetzt. wemi em Obertauf- 

*^Se"XS^^tX'dt^'5^nthalt einen Prozessor voUstandiger Exponenten(E5.und einen Proze«or 
voE^nd^er^orzSenbhdBP). Fur diese Funktionenweidea keine PDP-BefeUe benBtigt ^^^.^^ 
die Funkttensweise der ALP-Schaltung und die POP-Programmfolgen rur DurchfQhrung der Grund-GIeitkom- 

"^eSS oSio^^ulator - Zum Beladea des GleWcomma-Akkumukton belid^^ 

zuerst die Eingangswerteregister mit zwei Worten mid sew das FunktionsregisterO^ 

etoe OperST^den-. DieGleitkomma-Steuenmgs-(FPC-Hoating pomt ~nt^OS^alt^Ctoertragt dann die 

?i! VH-Registerwerte za den AL- und AH-Registem und setzt d^ Signal DWm.STAT. wemi der Wert 

ungGltig ist Die grondlegenden Programmschritte in Assemblersprache smd folgende: 



LDALPDA; Laden niederwerdges Wort in ALP-Schakung 

LDALPDA*+1; Laden hochwertiges Wort in ALP-Schaitung 

LD ALPF "LDA"; Setzea ALP-Funfction 

IPC 'ALP DW".., PrOfenanf guItigenOperandcnwcrt 
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Speichern Gleitkomma- Akkiimulator — Das Programm setzt das Funktionsregister (F) in der ALP-Schaltung 
auf eine Operation •Speichern". Die GIeitkonima-Steuerungs-<FPC-)Schaltung iibertrigt dam die AL- und 
AH-Registerwerte zum DWm-Ausgangspipelinebus zur Speicherung im Speichen Die gnmdlegcnden Pro- 
grammschritte in Assemblersprache sind die folgenden: 

LD ALPF "LD A^• Setzen ALP-Funktion auf Speichern 

STALPD A; Speichern niederwertiges Wort aus ALP-Schaltung in "A" 

STALPD A + 1; SpeichemhochwertigesWort aus ALP-Schaltung in "AH- 1* 

Gleitkomma-Vergleich — Das Programm beladt das Eingangsregister mit dem mit dem aktuellen Glcitkom- 
ma-Akkumulatorwert zu vergleichenden Wert und setzt dann das Funktionsregister auf 'Vergleich". Das Signal 
DRm^STAT zeigt eine ungultige Eingabe an, DWm STAT zeigt an, daB "A V, und DRp_STAT zeigt an, daQ 
*A>V-. 

LD ALPD A; Laden niederwertiges Wort in ALP-Schaltung 

LD ALPD A + 1 ; Laden hochwertiges Wort in ALP- Schaltung 

LDALPF "CMP*; Setzen ALP-Funkdon 

IFCALP^DR'..^ Prufen auf aktuellgrdBerals Eingabe 

Gleitkomma-Multiplikation — Das Programm beladt das Eingangsregister mit dem mit dem aktuellen Gleit- 
komma-Akkumulatorwert zu multiplizierenden Wert und setzt dann das Funktionsregister auf "M uldpUkation*. 
Das Signal DRm^STAT zeigt eine ungultige Eingabe an. Die ALP-Schaltung berechnet automatisch den zeit- 
weiligen Wert des sfch ergebenden E^nenten und setzt das Signal DI^_STAT, wenn der Eingangswert '(T 
betragt Dann werden drei Muldpiikationsoperationen unter Verwendung von Werten durchgefOhrt, die aus der 
DRp-Pipeline in ciner festen Folge ausgelesen werden, die dutch die Steuerschaltung definiert wird. die die 
Multiplexer zur Bereitstellung der Operanden in der ordnungsgemiBcn Reihenfolge steuert Das Ergebnis wird 
dann aus der WDp-Pipeline v6m PDP aus in den Akkumulator eingeladen. 

Laden niederwertiges Wort in ALP-Schaltung 
Laden hochwerdges Wort in ALP-Schaltung 
Setzen ALP-Funktion 

wenn Eingangsoperand 0 ist, zu Ausgabe umspeichem 
Ldschen PDP-Akkumulator 
Beladen PDP-Multiplikandregister mit AL 
Multiplizieren AL mit VH 
Beladen PDP-Multiplikandregister mit AH 
Multiplizieren AH mal VL mit Akkumulieren 
rechts verschieben Akkumulator 
Multiplizieren Akkumulation Ah mal VH 
Obertragen niederwertige Bit zu ALP 
Obertragen hdherwertige Bit zu ALP 
Oberpruf en auf unzuliUages Ergebnis 

In diesem Codebeispiel steQen die Adressen 'ALPD^ und 'ALFV konfigurierbare AdreBmodusreferenzen zur 
Obertragung der ALP-WDa-Pipeline zum PDP bzw. Speicher dar. Dies ist ein Beispid des wirklichen Venno- 
gens der Verwendung von ALP-Pipelincschaltungen. Durch die Verwendung von einfachen Schaltungen im 
ALP zur Durchfuhrung der einfachen Bithandhabungs- und Exponentenverarbeitungsfunktionen reduziert sich 
die Programmfolge auf ein FQnf tel der Anzahl von Bef ehlen, <fie sonst zur Durchfuhrung der BEEE-CTeitkomma- 
MultipIikationben5tigt werden wtlrden. 

Gleitkomma-Addition — Das Progranun beladt das Eingangsre^ter mit dem zum aktuellen Glettkomma- 
Akkumulatorwert hinzuzufilgenden Wert und setrt dann das Funktionsregister auf 'Addition*. Das Signal 
DRm_STAT zeigt eine ungQltige Eingabe an. Der ALP-Exponentenprozessor berechnet den Mantissenver- 
schiebungswert, der zum Skalieren des kleineren Operanden benutzt wird, und setzt das Signal DRp_STAT, 
wenn die Operation in Wirklichkeit statt dessen eine Subtraktion erfordert Die ALP-Schaltung erkennt; welche 
Mantisse grdBer ist, und ladt diesen Wert zuerst in den PDP. Das Programm fuhrt dann die Addition oder 
Subtraktion duich. Es wird eine PrQfung durchgef uhrt, ob Nachnormierung erforderUdi ist (die Bnzelheiten sind 
der Kurze halber weggelassenX Das Ergebnis wird dann zusanunen mit dem vom Exponentenprozessor berech- 
neten neuen Exponentenwert zuriick in den Gleitkomma- Akkumulator umgespeichert. 



FPMUL: 

LDALPDA; 

LDALPDa+1; 

LDALPF'mJL'; 

IFC-ALP DR-.4 

CLR; 

LDTALPD*; 

MACALPD*; 

LDT-ALPir; 

MACTALPD*; 

SHF12; 

MACTALPD^; 

STL'ALPV; 

STH*ALPV*; 

IFCTDWm'..,; 
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30 



ADD: ^ ^ 

LDALPD A; Laden niederwcrtiges Wort in ALP-Sclialtung 

LD ALPD A + 1 ; Laden hodiwertiges Wort in ALP-Schaltung 

LDALPF^ADET; SetzenALP-Funktionauf Addition 5 

LDA^ALPD*; Laden niederwertigcr TeB des Augendcn Mantisse 

LDTALPD*; Laden hoherwertigerTeil des Augenden Mantisse 

LDS'ALPD^; Laden Verschiebungszahlung 
IFCALP_DR*ADD1 ; wenn Subtraktion b^tigt gehe zu Punkt ADD 1 

ADS"ALPD*; Addieren niederwertigenTeii des Addenden verschoben nach rechts lo 

ADHS*ALPD'; Addieren hoherwertigwiTefl des Addenden verschoben nach rechts 

JMP ADD2; Springen zum Ausgabesicheningsschritt 
ADDl: 

SUBS'ALPD*; Subtrahierea verschobenes Niederweroges 

SUHS*ALPD*; Subtrahieren verschobcnes Hoherwertiges 
ADD2: 

IF'uppcr* - . . PrOf en auf Nacfanonxuenmg erfordot 

STL"ALPV; Speichem niedwwertige Mantisse in ALP 

Smr ALPV"; Speichem hdhcrwerdge Mantisse in ALP 20 

Bne ahnfiche Folge wird zur DurxAfiihnmg von Gleitkomma-Subtrakdon benutzt Der einzige Unterschied 
bcstcht in der Umkehrung der Richtung der Subtraktionsbedingung. 

Berechnung der schnellea Foiiriertransforniation(FFT-Fast Fourier Transform) 25 

Bei der Aoswertnng und Handhabmg von Datcn ist die Benutzung der diskrcten Fouriertransfonnation (DFT 
-Discrete Fourier Transform) wdt verbrdtet Die matfaematische Definition des Problems ^^J^^^"^'^^ 
etnem gegebencn Vektor von Daten X mit N Punkten ist die diskrete Fouriertransformation der N-Punktvektor 
y» gegeben durch das Produkt von X und derTransfbrmationsmatrix M: 

Im aHeemeinen sind die Elemente von X komplexe Zahlen, die die Werte einer Zeitbcreichsfunktion darstel- 
len, und die Elemente von Y sind komplexe Zahlen. die die Koeffizienten des Frequenzbereichsspefctmms der 
Fmiktion darsteDea Die Elemente der Transformationsmatrix M smd im aUgemcmen komplexe Zahlen, die 
durch folgende Formcl gegeben sind: 

Mjk - co<2jijk/N) - i-sin(27iikm), j « 0, 1,. . .N-l and k = 0, L. . . N-1 

wobei 3 md k die Zeilen- und Spaltenindtces und i- VFI) sind. Bei direkter Berechnung erfoj<*ert^DFT 
hP-Multiplizier. and NP-Addieroperationen. Die Algorith-men der schneUen Founertranrformation (FFT) nut- 
zen die Symmetrieeigenschaften der Koeffizienten Mjb um die Anzahl von Berechnungen bedeutsam za verrm- 

^^z. 25 zeigt den DatenfluB und die Berechnungen des gnmdlegenden FFT-Algorithnms fOr N - a. Wenn N 
eine Potenz von 2 ist, so dafl N - 2° crfordert der Vorgang m + I Stufen. In der ersten Stufe (Stufe 0 m der 
Wis. 24) wird der Eingangsdatenvcktor X durrfi die -Bitumkehr-Termutation permuUert, den Zwischmda- 
tenvcktor 20,0] zu bUden. In dieser Stufe wird jedes Bement X[n] des Vektors X so auf das Element ^,0] 
abffebildet daB die Bit mit Index j den Kehrwert des Indexes n bUden. In den Berechnungsstofen wird jedes 
Tleflexionspaar^ von Zwischenwerten ZOJc] und ZQ^ Jc] transformiert um das ntchste Paar von Zwischenwer- 
ten ZD*:+ 1] md Z[3^djc+ 1] zu bfldea Fiir die Stufe k wird der Abstand zwischen den Elementen em^ Paars 
durch die Eamming-Abstandsfunktion gegeben: 

j ist mit j'^2'^ gepaart, 

wobei das bitwcise exkhisive ODER der binaren DarsteUung der Ganzzahlen j und 2^ ist. Die redimerte 
Mengc von Multiplikadonskoeffizienten in der Figur baricrt auf den Synmetrieeigenschaftcn der M^Matnx. 
insbesondere ist: 

C[r]«Mu 

wobei d«- Index r fOr den Koeffizienten der j-ten Zeile der Stufe k durch die niederwertigen (m- 1) Bit von j 
gegebenist,wobcidieniederwertigen(m-k)BitaufNungKetztsiiA ,cpcpna,», 
Nunmehr wird eine spezifische Ausfuhrungsform der FFTunter Annahme der Verwendung von 16^P-Bau- 
elemeoten, die unter Verwendung des Schald>usses und einem IT-ten RSP, der zur Steuenmg derVeryfaeittmgs- 
5SdL5 benutzt wird mitdniider verbunden sind, dargesteUt. Jeder RSP in dieser Strxifctur wud emdeutig 
durch den Prozessorindexwert L identifiziert, wobd L « 0.1^. 15 dieTlatenpi^zessote^ ^""l™^^ ° ^^2^ 
Berechnungssteucrung darsteflt FQr DarsteOungszwecke wird em Wert von N - 1024 benutzL Auch wird 
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angenommen daB der Prozessor PO die X-Elemente X[Ol X^ll • . . X[63] enthalt, der Prozessor PI die X-Elemen- 
te 3ci64l, XteSI . . . X[127] eathalt und so weiter- 

In der ersten Stuf e muB der Vektor X bitweise ruckwarts pennutiert werden. Dies iSBt sich durch Anwendung 
von einfachen Pipelines im ALP durchfuhren. In jedem Schritt werden in jedcm Schaltbuszyklus 16 Datenpaare 
ausgetauschL Der Algorithmus fur den Vorgang basiert auf der Bildung von drei Gnippen fur die Bit des Indexes 
des Datenelements Jfljl das mit dem Datenelement XQ] so ausgetauscht werden mufi, daB j der Wert von i mit 
umgekehrten Bit ist Bei N = 1024 werden 64 Zykien zur VoUendung der Umkehrpermutadon benotigt (16 stellt 
das 6-te Bit von Index I dar und so weiter): 

(W,X3.l7a6) (15,14) (13,12,11,10) (10,11,12,13) 14.15) aS,17,18,lS) 

SP SO ST ©» DO 

Bei der gegehenen angenommenen Datenspeicherordnung stellen die oberen 4 Bit (das mit SP bezeichnete 
Feld) die Prozessorkennummer dar und die unteren 6 Bit des Indexes (SG, SV) stellen den Index fur die 
Speichenmg von Datenelementen in dicsem Prozessor dar. Zwei Datenelemente Xp] und X[j] konnen unter 
Venvendung von Schaltbusreflexionen ausgetauscht werden. wenn der Hamming-Abstand zwischen den Ur- 
sprungs- und Zielprozessomummem einer der zulassigen Rcflexionswerte d ist, wobei d « 0, 1, ... 15. Das kann 
durch folgendes Erfordemis erzwungen werden: 

DP = SV^d 

Alle 1024 Werte werden ordnungsgemaB durch Durchlaufen aller mogtichen Werte von SG und SV permu- 
tiert Beispielsweise wird der Austausch von X[153] gegen X [356] f oigendermaflen durchgeffihrt: 



(0,0,1,0) (0,1) (l,0,lrO> {0,1,0,1) (1,0) (0,1,0,0) 

SP SG SV DP DO 

wobei der Sdialtbusabstand d DP^SV « 14. Bd diesem Beispiel fuhren die ALP-PipeUneschaltungen die 
detaillierte Bithandhabung durch. um das Quelladressen-{RA-Pipcline)(, Zieladressen- (WA-KpelineX Quellda- 
teniese-(RD-PipeIineX Quellschreib-(WD-Kpdine> Schaltbussende-(XW-Pipeline) und Schaltbusempfangs- 
(XR-Pipeline) Signal zu erstellcn, womit der groBte Teil der Pipelinebusanordnungsmittel genutzt wird. In dieser 
Stufe der FFT wird der PDP im Prozessor P16 nur fur die Folgesteuerung durch die zur VoUendung des 
Vorgangs bendtigten 64 Schritte benutzt 

Die Hg. 26 ist ein Blockschaltbild fiir eine ALP-Schaltung, die in jedem Datenverarbeitungselemcnt zur 
Implementierung der bei der FFT benutzten Permutationsoperatioa zur Anwendung kommt Zwischen den 
Prozessoren wird die Operation durch die Schaltbuszykien synchronisierL In der voriiegenden Figur ist der 
Block mit der Bezeichnung ''A* ein Register, das mit der Basisadresse im Speicher des ersten Elements im 
X-Datenvektor beladen isL Der Block "GS" ist ein Sechs-Bit-Zihler, der zum Fortschalten durch die Daten 
benutzt wird Die niederwertigen zwei Bit dieses Zahlers sind die "Gruppen-'TMummer und entsprechen dem 
SG-Feld in den obigen Beispielen. Die Queiladresse (RA) bei jedem Schritt wird dadurch erstellt, daB zuerst cKe 
exklusive ODER-Verknupfung des Stufenwertes S mit der Prozessomummer L durchgefuhrt wird. Dieser Wert 
wird mit dem Gruppenwert G verkettet, umgekehrt (was nur Drahtverbindungen erf ordert) und zu der Basis- 
adresse hinzugefugt Die Zieladresse (WA-Pipeline) wird durch Addieren des umgekehrten Wertes von L, 
verkettct mit G, zu der Basisadresse gebUdeL Nach der Initialisierung arfoeitet die Stcuerschaltung fOr diesen 
Block als seibstandige Pipeline und wiederholt den Zyklus der folgenden Schritte: 

1) Erzeugen Leseadresse in RA, Warten auf RD-Daten bereit Auch Erstellen des spater zu benutzenden 
SchreibadreBwertes. 

2) Lesen Daten aus RD und Cbertragen Daten in Pipeline XW uber den Schaltbus. Warten auf Empf angsda- 
ten vom Schaitbus. 

3) Schreiben der Empf angsdaten von XR in den Spdcher an der durch den WA-Wert definierten Adresse. 
Erhdhen des GS-Zahlers. 

Diesc Schleife wu-d solange wiederholt, bis der GS-Zahler uberlauft und der Vorgang dann endet Der FluB 
des P16-Programms ist allgemein wie folgt: 
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'^Setzen Basisadresse in dea Dateiipro2essoren'';/*Initi- 
aLlisierxmg*/ 

fur (D s 0; D < IS; ++D)/* je der Sdrailtbusabstand*/ 
{ ^Setzen Schaltbusaibstand D*^; 

fur (G = 0; G < 4; /♦ Fortschrciten durck 

Grap -penelemeiLt e* / 

^zyklisch wiederholM. Sehaltbus";} 



Manbeachte,daBdergrdBtcTcnderArbehfiirdieBitumkehrph^^ 

Die flbrigeaStufen des FFT-Algorithmus bcautzeadie PDP-VcrarbeitungsShigkeiteam jedem Pro2«^^ 
DurchfOhrung der Addier-, Subtrahier. und Multiplizieroperationen. Der Algonthmus wtrd vcremfacAUndOT 
die Datenprozessoren in Paare aufgcteik wcrdcn, die die Grundbercchnung diffMH^n. wie inRg. 27 dar^- 
stent Der Hamming-Abstand zwischen Paaren von Datendementea betragt 0 fOr die erstcn 6 Stufen und ist 
durch f olgendes gegeben: 

^Hz! SS^i? BlS^tbOd ciner ALF-Pipelineschaltang, die die Adresse fOr die ^cf&ienten, die Adressc 
zum LJe^und Schreiben der Daten berechnet und die Daten fiber den Schaltbus fiir die ^^^B^^^Jf «^ 
ubertrigt In dieser Schaltung ist der Blocfc-A' ein Register, in dem die Basi^drcssc im Speicher Kir *e Daten 
«speicbcrt ist, der Block XT ein Register, das die Basisadresse im Speicher fOr (be Koeffizittiten spache 

R^Ser. das den Stufenindei speidiert Der Block ist ein Z^der, der urn m "ST defimerte W^^^ 
ansteigt. um Adressen fOr aufeinanderfolgende Datenelemente fOr jede Stufe zu crzcugea Der Block Cc^ ist em 
SeS^^SiS^naufeinanderf& 

wahit die Daten Oder KoeffizicntenadressezumAuslesenaus dem Spdcheraus, , * ^ 

Ein beispielhafter UmriB cines Algorithmus fur die ungeradzahligen Datenv^raAeitmg^lcmente die 
Bcrechnungsstufen der FFT ist wie folgt: Der folgende UmriB des Algorithmus wmi dann fOr die geradzahligen 
Datcnverarbeitungselemente benutzt: 

/♦ Berechnuag-en fur da.s ungeradzalilige Datemrerarbei- 
tungselemezLt ♦/ 
fur (X = 0; I < S4; 

{ tinp a ^c^ * '"d"; /* Koeffizienten- und Datenadresse 

vom ALP */ 

^Senden ima geraden Prozessorpaar'; 

^En^fangen Paardaten'^ 
^d-r paar - taap;} 

/* Berechnungen fur das geradzahiige Datenvera^ei- 

tuagseleaent */ 

fur (I = 0; I < S4; ♦+!) 

{ tn^ = ^6f}/* gerade Datenadresse von ALP */ 
^Senden ♦'""ip zum tmgeraden Prozessorpaar" ; 
»ESxnpf angen Paardaten' 
*d* = Paar tispj} 



37 



I^E 197 22 365 Al 



Danach wird der folgende Algorithmus vom Steuerprozessor (P16) zum Steuem des Datenflusses dtirch den 
Schaltbus benutzt: 



/* PM FPT Steueralgorithmus */ 

f^ir CStufe = 0; Stufe < 10; ++St'afe)/* jeder Sciialtbus- 
*^Set:zexL Schaltbusabstand auf O'^; 

SOXLSt 

^SetzexL Schailtbusabstand auf (Stu£e - 6)'; 
^Rundsenden StufezLwert zu Datenprozessor^; 
fur (I s 0; I < 64; ++I) *Zykliscli wiederiiolen 
Schaltbus*';} 



Bildverarbeitung 

ESne gebrauchliche Aufgabe bei Videokonferenz-, Bildtelefon- und Multimedia-Con^juteranwendungen ist 
die Komprcssioa von Videobildstromen. Der Gnindansatz besteht im Vergleichen der Bilddaten aus einem 
VoUbild mit einem aktuellen Schatzbild, Ableiten der wesendichen Differenz und nachfolgendem Obwtragen 
einer codierten Version der Differenzen. Dieser Vorgang wird 'Videococfierer* genannt. Danach wird ein 
Videodecoder zur Rekonstniktion des ursprOnglichen Bildstroms durch Umkehren der Grundschritte benutzt 
Bei den meistea heudgen Ansatzen wird eine hierarcbische Darstellung des im Speicher gespeicherten Bildes in 
der in Fig, 29 dargestellten Form benutzL 

In dieser Darstellung werden die Btkidaten zuerst in Bldcke von Bildpunkten (Pel) eingeteiit» wobei jeder 
Block aus einem N x N-Teilbiid besteht, wobei K die Anzahl von Prozessoren ist. In dem in Fig. 2d gezeigten 
Beispiel kt jeder Block ein 8x8-Bild. Vier Bldcke werden zusammengruppiert, um einen T^akroblocl^ von 
16 X 16 Bildpunkten zu bilden. In einem Parallelverarbeitimgssystem mit mehrdimensionalem Speicherzugriff 
kann auf jede Zeile oder Spalte eines Bildblocks unter Verwendung der ReflexionsdatenfluBmuster in einem 
einzigen Schaitbuszyklus zugegriff en wei'den. 

Der vereinfachte FluB eines VIdeoc-dieralgorithmns tst wie f olgt: 

1) Vergleichen jedes neuen Makroblocks mit dem entsprechenden Makroblock des gegenwirtigen Schitz- 
bildes: Wenn die Differenz unterhalb eines vorgeschricbenen Schwellwertes liegt, wird keine weitere 
Verarbeitong an dem Makroblock durchgefCihrt 

2) Bewegungserkennimg — Die meisten Differenzen in einem Makroblock sind das Ergebnis der Bewegung 
eines Teils des Bildes. Der Algorithmus bestimmt die BewegungsgroBe eines Makroblocks durch euie 
komplexe Vergleichs folge mit dem Ver^eichen einer verschobenen Version des gesdiitzten Makroblocks 
mit einer Nachbarumgebung des neuen Bildes. Daraus ergibt sich eine annahemde optimale neue Position 
fOr den Sch§tzblock. 

3) Transformadon — Die Differenz zwischen dem Schatzbiock und dem neuen Block wird unter Venvea- 
dong des Algorithmus der diskreten Cosinustraosformation (DCT-Discrete Cosine Transform) transfor- 
miert. 

4) Der transf ormierte Diff erenzblock wird quantisiert um die Gesamtzahl bendtigter Bit zu verringern. 

5) Die quantisierten Daten werden dann unter Verwendung von Datenkompressionsverfahren wie bei- 
spiebweise Codierung mit veranderlkher Wortlange (VLC-Variable Length Coding) welter reduziert. 

In der folgcnden Obersicht wird die Verwendung eines 17-Prozessor-RSP-Systems zur Implementierung der 
Bewegungserkennungs* und Transformationsschritte, die typischerweise die kompUziertesten Aspekte der Vi- 
deokompression darstellen» beschrieben. Der Ansatz bedent sich der Fahigkeiten des mehrdimensionalea 
Zugriffs des Schaltbusses in Kombination mit der Verwendung des ALPs zur AdreBerzeugung und zum Bild- 
punktvergleich. 

Fig. 30 zeigt die Abbildung von Bildpunkten m einem Makrobbck auf die 16 RSP-Datenprozessorenp die 
unter Verwendung von Hexadezimaldarstellung CO^'l*, . . ."A", . . ."P) numeriert sind, fOr eine auf der Architdc- 
tur der vorliegenden Erfindung basierende Biidverarbeitungsanwendung. Die Bildpunkte des Makroblocks 
werden entsprechend den auf dem Hamming Abstand-Konzept basierenden mathematischen Zuordnungsre- 
geln den Speichem der verschiedenen RSP-Prozessoren zugewiesen. Unter diesen Regeln wird der Bildpunkt an 
Stelle X und y im Makroblock auf die Koorcfinaten P und A abgebiidet^ wobei P die Prozessoraummer und A der 
Adressenversatz des Bildpunktes in der Blockspeicherung im Prozessor P isL Die mathematische Regel ist 
folgende: 

A-y 
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wobei lUO der Bitumteh^perator istund-'^ein bitweises exklusives ODER anzeigt. Dtnchcfiesc Regein wd 
dann diVumgekehrte Abbfldung von (AJ») auf Koordinaten (x,y)durch folgende Gleichungen gegebem 

x-P'^RpCA) 
y •» A 

Durch diese verwflifelte Anordnung von Daten unter dea Proxessorcn wird dw Zi^piff auf die Daten unter 
Verwendung mehrerer "Adressieniiodr, wie in Fig. 31 dargesteUt, ermdghcht Der Gnindadressiermodus ist 
"CM4(r der eriaubt, daB jede IS-Pelpunteeae von einem Block in einem Schaltbuszyklus geles«ai w^den kann. 
Bei diesem Modus sind die Wertc y und A die ansgewahlte ZeQe und haben denselben Wert fOr aDe Prozi^soren. i 
Der Schaltbus liest oder schreibt diese Zeile unter Verwendtaig cines Reflekbonsabstandes vonRp(y). der die 
Daten fOr eine Schreiboperation in die richtigen Prozessoren verwflrfelt bzw. die Daten aus den Prozcssoren fOr 

^'AbSS^S!^ kSSe Spalte in einem Block in einem SchaltbuszyUus unter VCTwoidung des AdreBmo- 
dus -CM04" modifiaert werden. In diesem Modus ist der Wert x eine Konstante, der Schaltbusabstand ist auf den 
Wert X gesetzt und die Adresse in jedem Prozessor ist gegeben durch: 

A-Rp(P^x) 

Die verwtofelte Abbfldung eriaubt gleichennaflen den Zugriff eines beUebigen 8 x 2-, 4 x 4- oder 2 x 8-Blocks 
von BHdpunkten in einem Zyklus. ZusatzDch eriaubt das Schema die Verwendung von gegabelten Adrrasier- 
modL Beispielsweise eriaubt der Modus -BM44" den Zugriff aiif Bfldpunkte m emem zweidunensionalen Muster 
mitebemAbstandvon4zwischenjedemBildpunkt 

Es gibt mehrere Weisen zur Verwendung der mehrdimenstonalen Zngnffemodi dieses Scfaemas zur Imple- 
menting der Bewegungserkennungsstufe der VHeocodlerung. Modus BM44 kann zur I^^^ ern^ 
schneUen Obeiprflfuni einer BfldSndenmg durch Vergleichen einer Teihnenge d« neuen Bfldblocfa mrt dem 
geeenwirtigen Schatzblock in drei Schaltbuszyklen benutrt weiden. In diesem FaD wird erne ALP-PipeEnc- 
IJhalnmg zSr Erzeugung der Speicheradressen -A", zum Durchfa|^ T^i^^'^^^'l^ wlJ^'Ji^ 
BildpSSe und Melden des Gesamtergebnisses Cja" bzw. 'nein") an den PN^essor benutzt. W«m aUe 
Pi^essoren Tceine bedeutende Diffcrenz" melden. dann Qberspringt der PN-Prozessor alle werteren Arbeiten 

*"wS*SSbSllt^de Blockdifferenz erkannt, versucht der Algorithmus. durch einSuchverfahren die optima- 
le neue SteUe fur den Block zu bestimmen. Der allgemeine Suchplan fOr eine Bewegungsversatzanwe^ung ist m 
He. 32 dargesteflt. Es stehen. mehrere Strategien zum Fmden des opnmalen Ver«tz es zur Verfflgung. Im 
it^ersten Fall wird der Schatzblock nrit aflen mdgUchen SteDen in emer festen 

Dies wQrde fOr die meisten Anwendungen unzolassig vie! Zeit erfordem. Erne gebriucMiche Strategic ist. em 
Verfahren des "Bezwingens durchTeilen' zu benutzen. Das Folgende ist em grober UmnB: 

1) Die Vergldchsergebnisse der schneUen OberprOfung auf einen NuDversatz wwden durch Addieren der 
Differenzwerte afler 16 Prozessoren angesammelt, um einen Gesamtdilferenzschatzwert ct eriialten. Die- 

ser Reduktionsschritt erfbrdert 4 SchaltbuszyUen. Iin enten Zyklus ^j^J^^^r^^^'^i^ 
Prozessor zum vergleichbaren Wert im Prozessor ndtAbstandlhnizuacWert.DerSchrrttwird^ 

i 4 und 8 wiederiiolt. worans sich die in alien Prozessoren gespeicherte Sammeldifferenz ergibt Dies steDt 

denaktueUenGesamtdifferenzwertdar. • j j u* 

2) Es wird dann die Differenz rwischen dem Schatzblockversatz gefunden. die Daten von Jedem der acht 
Nachbam des Schitzblocks enthih. Dies wird nrit emem groben Vcrsatz von 4 Bildpunkten dur^gefOhrt 
Fur iede der acht mSgUchen Bewegungsriditungen wird eine neue Sammeldifferenz berechnetWenn cue 
neue Sammeldifferenz weniger als der voriierige Differenzwert ist, ersetzt die neue Sammeldifferenz den 
altenWertundderneueVersatzersetztdenvorherigenVersatzsctetzwerL . j ^ ,» 

3) Der Sdiritt 2 wird mit einem Versatzabstand von 2 vom aktueOen optimalen Versatz wiedertiolt. 

4) Der Schritt 2 wird mit einem Versatzabstand von 1 von dem aktueUen optimalen Versatz wiederholt 

Daraus ergibt sich ein Bewegungsvektor (Dx. Dy> der eme AnnSherung an den optimalen Bwegungsvcnate 
anzeigt. Dieser Versatz wird dann zur Berechnung eines Differenzblocks benutrt der die Mferenz von Bil^ 
punkt^ im neuen Bild mi Verhaltnis zu dem Versatzwert des Schatzblodces enthilt. Der Differcaabtadi: wird 
dann unter Verwendung eines zweidimensionalen DCT-Algoritiunus transfonrnert-DiM geschieht typischawei- 
se an den 8 X 8-B16cken, um die Menge an notwendigen Berechnungen herabzusetzen. Die allgememe Gleichung 
fOr den zweidimensionalen Algorithmus ist wie folgt: 

wobd Dg die Bildptmkt-Differenzwerte an SteUe x « I und y = j sind, Gxy die Matrix transformierter Werte ist 
und die Transf ormationskocffizienten Wij durch folgende Fonnel gegeben smd: 
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cosCjc/4) ./ = 0 



cosi 

\ 2N 



10 Der Vorgaog wird dadurch vereinfacht, daS zuerst in folgendea Gleichungen eine eindimensionale DCT an 
den Zeilen des Blocks und danach eine eindimensionale DCT an dea Spalten des Blocks durchgefuhrt wird: 
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Fur die Vldeokompression wird die DCT typis cherw eise fur 8x 8-Bl6cke berechnec Die Koeffizienten Wij 
verhaltcn sich nicht so gut wie die entsprechenden FFT-Koeffizienten.Diese Koeffizienten weisen eine Symme- 
trieeigenschaft au^ die die Rediiktion auf nur N*l verschiedene Koeffizienten Q durch folgende Definition 
eriaubt: 

Cj « Wo>i « 1,2,... N—1 
Die dndimensionaie 8 x S-Transformation laBt sich dann durch folgendes Matrixprodukt ausdrQcken: 
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was 64 Muldplizier-Akkumulieroperationen erfordert. Die Anzahl von Multiplizieroperationen laBt sich durch 
Verwendung der Symmetrieeigenschaften der Koeffizientenmatriz und Verwendung eines durch die Summe 
und Dif ferenz der Daten gebUdeten Hilfedatenvektors verringem: 
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Mit dieser Form wird die Berechnung auf 32 Multiplizier-Akkumulieroperationen verringert, die uber die 16 
Datenprozessoren verteilt sind. Zur Implementiening auf dem 16-Prozessor-RSP-System werden zwei eindi- 
mensionale Transformationen gleichzeitig berechnet Wahrend der Zeilentransformationsphase wird der 
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g X 2-AdreBmodus CmTxam gleichzeitigea Zugreifen auf zwei Zeilen benuttt. Es wenten acht Pnwesso- 
znm Verarbeiten einer Zefle benutzt wahrend die Qbrigen acht Prozessoren zwerte Zefle vmrbeiten^In 
der Spaltentransforaationsphase wird der Adressmodus CM13 zum Zugreifen auf rwei SP'^te'i m emm 
benaSDerSummea-ZDiffferenzvcktor last sichleicht dun* Ve™d^^ 

fchaSioKrechiien. Es werden dann ALP-Pipelines zur Berechnung der A/P- uiid der Itoeffiaentenadre^^ 
Snuwils fo^er UmriB des Codes fur die vonstandige zweidimensiooale 8 xS-DCT fur die geradzahligen 
Prozessoroi: 

Die ALP-Schaltong // rweidimensionale 8x8-DCT? 
geradzalillge Prozessoren 

ffix (Zeile = 0; Zeile < 8; Zeile = Zeile +2)// zvei 

Zeilen. berechnet parallel 
{ "Senden D* 

«Bnrpfangen Tjagekehrt Dr, 8x2-ZeileimodttS''f 
D a D -I- pr; // Sunnnen-ZDif f ereazvektor 
T a 0;// traasformierter Wert 
far CX = Of I < 8; I a I + 2) 
{ «Senden D, 8x2-Zeileronodus, Abstand I"; 
«Enip£angen Di-Wert'; 

T = T + Di • "C;// Adresse des Koeff izienten C 
von 2kLP-Sc]ialtung } } . 



to 
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NacIiAbschhiBderZeaentransfonnationwerdeaimteinemahiilfchen^^ ^ 
nen berechnet: 

£iir (sp = 0? sp < 8» sp a sp+2)// rwei Spalten 

berecbnet parallel 
£ *Senden D* 

•Siiip£angen umgekehrtes Dr, 2x8-Spalteninodu8-; 

D = D + Dr;// S'uaiinea-/Di££ereiizvektor 45 
T a 0;// transformierter Wert 
far (I a 0? I < 8? I a I + 2) 
{ ^Sendm "D, 2x8-Spalteajiiodus, Abstand I"? so 
«Bnip£angen Di-Werf; 

T a T + Di * •C';// Adrease des Koeff izienten C 

von AliP-Sebaltrmg } ^ 
T a T »2;// geteilt dureh. 4 > 



Die ALP-Schaltungen fur diese Beredmungen nutzen die kombinierten DatenfluBoperationen des Schaltbus- 60 
ses. Beispiebweise wird das i-te Datenelement im Sunmen-ZDiffcrenzvelrtor unter Verwendung em« SchaU- 
buszyWm gelesen, der die Bfldpunktabbildentwflifhingsoperation nut dem ^ktoreiementversatz kombimert 
nS AbsdiluB der DCT werden rusattfiche ALP-Schaltungen zur Durchfuhning der Quanosienmgs- und 

'^wS^Sb^litt^^Krarbeitungsanwendungen typischerweise Komptae I>at5°*'^^^™^'*?'iff " 
wie beispielswdse die diskrete Fouriertransformation (DFn diskrete Owmustransformaton (DCT) 
Sete^vSsh-Hadamaid-Transformation (DWT) zur Umwandhing des BiWes in erne Ortsb^u^^u^ti^ 
S« ^beispielsweise zur Bestinmun^ der sich in einem BUd bewegenden Art von Objekt durch Benutzung 
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von Merkmalsanpassungsmedien benutzt Alle diese Transformationen werdea bci Implementiening unter 
Vervrendung einer Gruppe von RSP-Vorrichtungen mit einer N-f acben Geschwindigkeit (oder schneller) durch- 
gefiihrt. 

Eine Implementiening der DWT-Berechnung wird hier als weiteres Beispiel, wie die konfigurierbare Logik 
und Schaltbusverbindungsstruktur zusammen zur Beschleunigung einer Anwendung benutzen werden kSnnen, 
benutzt Fur den eindimensionalen Fail werden die Eingangsdatenworte fpjfur i « 0, 1, . - . N— I durch folgende 
Gleichung in einen N-Wort-Transfonnationsvektor F[i] umgewandelt: 



wobei die Koef fizienten Cj, k die Werte + 1 oder - 1 entsprechend dnem Hammingabstandveriialtnis sind: 



In dieser Formel ist Q(i ® k) das "Gewicht" des Hammingabstands, so daB Q 0 <^ k) de^ Wert 0 beatzt, wenn 
der Abstand j ® k geradzahlig ist und QO ® den Wert 1 bcsitzt, wenn der Abstand ungeradzahlig ist Eine 
direkte Implementiening dieser Gleichungen erfordert Additionen und NP/2 Subtraktionen. Fur <Ue gegen- 
w§rtige Besprechung ist ein "schneller* Algorithmus dargestellt, der nur N*log2(N) Additionen und Subtraktio- 
nen erfordert und sich der SchaltbusreflexionsdatenfluBmuster bedient Der Algorithmus setzt zuerst die Ein- 
gangsdatenwerte f} in den Ausgangswert des Vektors ZOj ein. Dann werden Log2 (N) ParaUelverarbcitungszy- 
klen zum Modifirieren der Elemente von Z benutzt, damit sie der gewunschte Transf ormationswert werden. Die 
erforderiiche Beredmung fur jedes Element j im Schritt k ist durch folgende Formel gegeben: 




wobei jk der Wert des k-ten Bits der Ganzzahl j und j' der Index des Hammingabstands-^Paars* fur das Element j 
ist der durch j' = j ® 2k gegeben ist Fig. 33 zeigt den Datenflufi und die Berechnungen des Walsh-Eadamard-AJ- 
gorithmus fQr N = 8. Die "X"-Datenfliisse im Diagramm stellen die zur Implementierung der Berechnungen in 
jedem Sduitt bendtigten 'TUflexions-'T^atenfiasse dar. Die bendtigten Hammingabstinde betragen 1 fQr die 
erste Spalte, 2 in der nachsten Spahe usw. Zur Implementiening einer Gruppe von acht RSP-Prozessoren 
unterhalt jeder RSP einen Wert des Vektors. Bei jedem Schaltbuszyklus gibt jeder Prozessor seinen aktueUen 
Zj-Wert aus und empfingt seinen Hammingabstand-Paarwert Im vorliegenden Beispiel residiert das Element Zj 
im Prozessor mit der Nummer j, so da& der Prozessor eine Addition durchfOhrt wenn jk 0 ist oder eine 
Subtraktion durchfuhrt wenn der Wert von jk I betragt Die Fig. 34 ist ein Blockschaltbild einer koirfigurierba- 
ren Logikschaltung, die die Berechnung der Hg. 33 implementiert Die Schaltung benutzt vier der Leitungssitze 
der Pipelinebusanordnung, RD, um den Ausgangswert vom chipintemen Speicher zu holen, XW und XR fur den 
Sdialtbusdatenflufi und WD, um das Ergebnis in den lokalen Speicher zurOckzuschreiben. Durch Verwendung 
der selbststandigen Pipelinef ahigkeit kann die gesamte Berechnung ohne Ausfuhrung irgendwelcher Skalapro- 
zessorbefefale durchgefuhrt werden. Der PN-Prozessor wird zum Fortschaltcn durch den Algorithmus und 
Synchronisieren der Operationen unter Verwendung der SchaltbusdatenfluBzyklen benutzt 

Dieser Grundalgorithmus laBt sich fur einen beliebigen Wort von Datenelementen N erweitem und kann zur 
Implementiening der zweidimensionalen Walsh-Hadamard-Transformation fur Bildverarbeitung erweitert wer- 
den. Fur die zweidimensionale Transformation werden die Daten entsprechend den schon beschriebenen Regehi 
fQr multidimensionalen Speicherzugriff verteUt Die Transfonnationsoperationea werden dann an den Spalten 
der Bildmatrix und danach an den Zeilen der Matrix durchgefOhrt Die Endwerte werden durch dne Rechtsver- 
schiebung von log2(N) zur Implementierung des Teilungsfaktors 1 : N an der ursprQnglichen Gleichung einge- 
stellt Die Fig. 35 zeigt einen Tcil eines verschiebbaren Pipelinesegments zur Verwendung bei der Ausfuhrung 
der Berechnung der Fig, 33. Diese detaillierte Schaltungssynthese und -auslegung wurde unter Verwendung 
eines RSP-Datenweggeneratorsoftwarewerkzeugprototyps ersteUt 

Patentanspruche 

I. Rekonftgurierbares Rechenbauelement mit cinem adaptiven Logikprozessor, dadurch gekennzeichnet 
daB der Logikprozessor eine Mehrzahl einzeln konfigurierbarer Logilccellen (150), die in einer Anordnung 
angeoidnet sind, die eine Mehrzahl von vertikalen Spalten konfigurierbarer Logikzellen (150) und eine 
Mehrzahl horizontaler Zeilen konfigurierbarer LogikzeUen (150) enthSlt umfaBt wobei ein Satt Steuerlei- 
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tuneen (i34) zar Obertragung von Steuersignalen und em Satt Datcnieitungen (132) zur Obertragung von 
^wTS^S^mwIdSesegment (160) und einer Logikzellenrekonfignranonsstetterang vorgesehen 
£^bdSRpdineseg^ent(l«)eineMeiigekonfigurienerlx,gikzetten 

S^iSng der Ano^ung po^itioniert ist, wobei der Satz von Steuerieitungen (134) d«- Satz von 
DatwdStungen (132) sich uber eine Mehrzahl von Spalten der Anordnung erstreckenund damt «laubei^ 
?S STfpipennisegment (160) an einer Mehrzahl homontaler SteDoi der >^rdnung tefodet 
rend init einer LogifaeBenrekonfigurationssteuening die ^^^f^^"" ^^s!kz^ea{mzam^^ 
des Pipelinesegments (160) und AusfQhrung der Menge von I^giWunktionea dunA de konfigwerten 
LogSen (1») dnrch Obertragung von Befehlen und Daten mhteU der Steuerieitungen (134) und 

ZRS!SSdeSri^l.dadun:hgekennzd^^^^ 

zur Ausfuhrung von skalaren Arithmetikfunktionen vorgesehen ist und der adaptive I^gflcproz^or wei^ 

^hin einen^eiten Satz von Datcnieitungen zur Obertragung von Daten zwischen der im ^V^^^^S: 

STeSt^enMengekonfigurierterl^gikzeUenundderArithmetik^ 

sich der zweite Satz Datcnieitungen QberjedeSpalte der Anordnung erstreckL , . , _ 

itS^element nach Ans^ruch 1 oder 2. daduidi gekcnnzeichnet. f^/«"<l?P*;;Xii^StXT^I 

etaSzwischen benachbarten Zeilen konfigurierbarer LogteeDen ^^^f^^^ 

konfigurierbarenl^gikzeneninbesagtenNachbarzeUenselektivdan^ 

bussStstenenschdtungen. die selekthr zwischen einer ausgewihlten 5<>f 

eta^usgewahltenZdfentokaibusverbindbar sind. um zuzulassen. daB die besagte ausge^te konfigu- 
riXTlSgikzene Daten aus dem ausgewShltcn Zeflenlokalbus ausUest oder Daten m denseften em- 
abSbl undD^ktverbmdungsmittel unrfaBt. die zwischen d^ 

nnd einer benachbarten konfigurierbaren l.,glkzeUe verbmdbar smd. so 'i^^?!*?^^^*^*^,^^^^ 
konfieurierbare LogikzeUe bereitgesteUtes Ansgangssignal unabhangig vom Zeilenlokalbus direkt als Em- 
iranBsienalfiirdiebenachbartekonfignrieTbareIx)gikzdlebereitgestentwerdenk^ 
4SSbaaeleS«,t nach AnspruchTdadmch gekennzeichnet. ^ der adaptive «™!:^ 
z^Snbenachbarten Spalten konfigurierbarer LogikzeUen veriaufenden Spahenlotadbu^wobei die 
SSeSSS bTgikzelS in besagien Nachbarspalten selektiv danut verbmdbar smd mid weiterhin 
wobdSe LogtkzeUen-Lokalbusschnittstenenschaltungett selcktrr zwischen emer ausgewahlten koi^eu- 
SarSi LolkzeUe und einem ausgewahlten Spaltenlokalbus verbindbar sind. um zuzulasse^ daB die 
S^aUte^SS^erbare LogikzSle Daten aus dem ausgewihlten Spaltenlokalbus aushest oder Daten 

?SSSbSSlSnent nach einem der Anspriiche 1 bis 4, dadurch gekemizeichnet. daB die zwischen der 
M«,?e to^STSerSkikzeUen uild der LogikzeHenrekonfigurationssteuenmg abertragenen Steuersi- 
JSf ete SffiSnsanforSrungssignal. das anzeigt. daB ^l^^^^^^^f^T^^^^^ 
Brfehl in einer ausfOhrenden Befehlsmenge identifiziert hat, der zur AusfOhrung dureh die Men^ konfigu- 
S^rSe5«bestimmtist.dnDatenanfordenmgssignjJ.dasa^^^ 

rationsste^nmg Daten identifiziert hat. die von einem anderen Hement des rekonfigunerimen Rcchen- 
touelraients^m adaptiven Logikprozessor oder vom adapdven Logikprozessor zu onem anderm He- 

5 d«^toZSriS£en l^nbandements zu Obertragen sind. und ein selbstSndiges DatenQb^- 
^Lignal zur Steaerung der Ausfuhrung einer selbstindigen Datenflbertragung zwischen dem adaptiven 
SScprozessor und einem anderen Hement des rekonfigimerbarcn J^^Pf*"- 

die «*standige Dateniibertragung unabtengig von cmemBefehl mi ausfOhrenden Befehlssatz ^ 

6 Rechenbaaelement nach einem der AnsprQche I bis 5, dadurch gekennzeichnet. daB erne zum adaptiven 
to^«z^r SSme SpeichervorriSig zur Speichenmg von ^unitio^d^en v^^^ 
seh« ist, wobei die Speichervorrichtnng durch den zweiten Satz von Datcnieitungen mit den anderen 
eementendesrekonfignriertiarenRechenbauelemeiitsverbmdenm. A^~ft-«««tor T..m 
7. Rechenbauelement nach Anspnich 6. dadurch gekennzeichnet, daB m <««°^^^8«!^°"'^ 
Erzeueen von zum Zugreifen auf die Speichervonrichtung benutzten Speicheradressen vorgesehen ist, 
wobei der AdreBgenerator durch den zweiten Satz Datcnieitungen mit den anderen Elementen des rekonfi- 

l^etoJSSb^^^^e'SS^Sifeiner Mehrzahl miteinander verijundener rekonfigurierbarer 
SeSenbSnente nach eine^er Ansprflche I bis 7 und mit einem Verbindmigsbus zur Bereimeaung 
von SignaiObertragung zwischen der Mehrzahl rekonfigurierijarer Rechenbanelemente. wobei erne Netto- 
Signalbandbreite der Verbindung im Veriiaitnis zur Anzahl mitemander verbundener rekonfigunerbarer 

elemente dnen Verbindungsbuskoppler zum Verbinden des rekonfigunerbaren Redienbaudements imt 
dem zweiten Satz Datcnieitungen und dem Verbindungsbus umf aSt 
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